puppeteer使用代理来爬取网络数据

前言:

关于爬虫,在网络上的爬取数据总会让目标网站反感,但是目标网站又无从得知该用户是否为爬虫,于是就通过一些方式去做判断,最为常用的方式便是屏蔽可能是爬虫ip的访问,将其重定向到另外一个页面..这个问题对于爬虫方解决起来不难 —– 代理.

代理:

要使已经被屏蔽设备网络ip能够重新访问目标网络,使用代理是最简单的方式,意思是,你访问目标网站时,不要直接访问目标网站,而是通过中间层去访问,你把请求发给中间层,让中间层把你的请求发送到目标网站,目标网站把返回的资源重新发送回给你,这样你与目标网站便是间接接触,目标网站无法得知你的真实ip.

代理方式:普通代理与隧道代理..两者方式最主要的区别是前者是主动获取代理ip,后者是自动获取访问的ip..前者在你使用代理的时候,当无法再访问目标网站的时候,每一次都需要重新获取代理ip,而后者只需要获取一次ip,后面切换ip的工作在ip服务器上自动切换.

使用:

我使用的是puppeteer来爬取网站上的数据,使用方式也比较简单:

在获取到代理ip(proxyServer)后:

const browser = await puppeteer.launch({
        args: [‘–no-sandbox’, ‘–disable-setuid-sandbox’, `–proxy-server=${proxyServer}`]
});

我使用的代理服务是芝麻http代理,使用起来也方便..有兴趣的可以去搜索一下…

总结:

加深了对网络的认知,也是自己基础知识的学习

 

Author: kaykie

发表评论

邮箱地址不会被公开。