爬虫的前世今生
hello,这篇文章来给大家科普下爬虫的前世今生,以及爬虫用到的主要技术以及工具介绍
1. 爬虫的前世
...此处省略无数条历史 1990年,蒂姆·伯纳斯-李(Tim Berners-Lee)发明了World Wide Web(WWW),引入了超文本标记语言(HTML)和统一资源定位符(URL),使用户能够通过简单的图形界面浏览和检索信息。 也就是说有人可以提供类似于我们现在的网页供大家浏览: ...此处省略无数条历史
此时有庞大的需求出现了(互联网上每一个巨大的需求都代表着技术或者商业上的进步,同时也伴随着兴起一批浪潮儿公司崛起进而掘金(Google,淘宝,腾讯无不是如此)) 此时互联网上的网页非常多,质量参差不齐,用户不知道在哪去找优质的内容,网站拥有者不知道怎么推广自己的网站
针对上面的痛点,各类公司主要提供两种办法: 第一种是门户网站,代表公司是雅虎(Yahoo!),MSN等公司
这类公司做的事就是把人工把各类网站搜索过来,人工分类,供用户来自行选择 (这个解题思路在20年后的今天也频繁出现,之前大家在淘宝拼多多上买东西,但是上面东西稂莠不齐,用户不知道怎么选,于是出现了类似于唯品会,直播间等帮助选品的店铺)
第二种是搜索引擎,代表公司是Excite@Home的Wandex, Google等
这类公司的做法是用一个机器人(一段代码),来无休止的爬取互联网上的内容,把这些内容存储到自己的本地,当用户来搜索的时候,通过关键词匹配或者更高级的算法来给用户展现优质的内容
而我们后面说的爬虫技术,就是类似于Google这里的蜘蛛
2. 爬虫的今生
上一节我们知道了爬虫就是把互联网上的网页内容抓取下来存储到目的地。
那现在很多人或者公司,有一个需求就是把特定目标的网站内容抓取并存储到目的地,比如企查查的工商信息,豆瓣的图书电影信息, 用来商业或者个人学术使用,那这类爬虫的原理是什么呢?
我们先来回忆一个小品中的问题,还记得如何把大象放进冰箱中去吗?
如果你知道上面的问题的答案是三步,那么你学会爬虫一定是一件非常容易的事儿!
因为任何一个爬虫程序,也可以分为三步!话不多说,上图:
那我们就可以针对这三步写一个简单的爬虫来获取一个网站我们想要的信息 网址:https://www.scrapethissite.com/pages/ 需要的信息:每篇文章的标题
2.1 小栗子
我们首先按照第一步需要使用python访问并获取目标网页内容:
此处为了节约时间,我们直接使用 requests
库的get