您可能多次遇到过Web Scraping和Web Crawling这两个术语。它们在非常相似的上下文中使用,有时甚至可以互换。但它们的意思并不相同。本指南将向您解释Web Scraping和Web Crawling究竟如何相互比较。
什么是 Web Crawling?
如果互联网被称为网络,那么 Web Crawling是做什么的……?确切地!也称为蜘蛛, Web Crawling通过网站传播。在路上,他们记下遇到的一切:网站的结构、内容以及与网络上其他网站的关系。这整个过程就是Web Crawling。
最大的 Web Crawling是搜索引擎,尤其是谷歌。他们的工作是不断地抓取所有他们能找到的网站,并为结果建立一个大索引。然后,搜索引擎将某些算法应用于他们的发现,例如,有多少其他页面链接到您的页面,并相应地对网站进行排名。
但它不一定是一个搜索引擎。您可以自己构建Web Crawling,或使用专业工具如Screaming Frog来爬取网站。正如我们很快会发现的那样,Web Crawling在Web Scraping过程中扮演着重要角色。
什么是Web Scraping?
无需赘述,Web Scraping的过程涉及从网站提取数据。这可以是任何东西,从电子商务网站中的笔记本电脑价格到在线黄页中的电话号码,再到电影数据库中的电影列表及其主要演员。
Web Crawling 与 Web Scraping
那么,Web Crawling和Web Scraping有什么区别呢?
Web Crawling不那么挑剔。它浏览一个网站并寻找它能找到的任何信息:从 URL 结构开始到内容结束。换句话说,Web Scraping的工作是索引或编目数据。
另一方面,Web Scraping明显更加集中。如果您要查找竞争对手的定价信息,则无需抓取隐私政策或“关于我们”页面。您甚至不需要完整的产品页面—商品名称、型号和定价数据可能就足够了。
在网页数据提取过程中
Crawling和Scraping不是一回事,但它们确实是相辅相成的。如果您想从多个页面抓取数据,则必须浏览网站的 URL。为此,您需要为您的爬虫配备爬行逻辑。此时,您处理的是scraper还是crawler就变得不清楚了,因此可以互换使用。
因此,要回答这两者的关系:Web Crawling将您的scraper传送到正确的位置,以便它可以完成工作。
在公众认知中
那是事情的技术方面。当我们查看如何感知爬行和抓取时,差异变得更加明显。
由于与搜索引擎的关联,Web Crawling具有相对较好的声誉。他们尊重网站的 robots.txt 文件(告诉爬虫他们可以在网站上做什么的文件),不会给服务器增加负担,并且通常是友好的小机器人。
然而,Web Scraping具有负面影响。爬虫忽略 robots.txt,收集非法信息,并通过鲁莽地发出过多请求来摧毁网站。他们不必 ——而且通常不需要。但每当进行比较时,通常都认为Web Scraping是不好的
关于Web Crawling与网络抓取的常见问题
Web Crawling有什么用?
Web Crawling主要被搜索引擎用于索引互联网上的网站和网页。它也被用于web scraping,以指导网络抓取器从一个页面到另一个页面。
Web Crawling与Data Crawling相同吗?
在部分使用中是的,但是,Web Crawling 和Data Crawling并不相同。后者不仅包括网站,还包括其他数据,例如 .pdf 文档。
Web Crawling 是 Web Scraping 的一部分吗?
可以是,但不一定。例如,即使Google Bot会抓取它访问的每个页面,但没有人称其为Web Crawling。但当您构建一个爬行逻辑来从多个网页中提取特定数据时,那么Web Crawling就成为Web Scraping过程的一部分。