技术 | Python从零开始系列连载(二十九)

  • 时间:
  • 浏览:1

本文来自云栖社区商务商务合作伙伴“灯塔大数据”,了解相关信息都上能关注“灯塔大数据”。

   for page in range(0, pages*(20+1), 20):

第一页https://movie.douban.com/tag/烂片?start=0

第二页https://movie.douban.com/tag/烂片?start=20

第三页https://movie.douban.com/tag/烂片?start=40

开始英语 英文上代码

运行该代码,效果如下

烂片详情页https://movie.douban.com/tag/烂片

end = time.time() lastT = int(

电影标签页 https://movie.douban.com/tag/

但是有代理IP还不行,但是朋友儿真不知道这代理都上能用,是不是效。

朋友儿准备抓 国内高匿代理IP网 的5个页面的代理

   #用csv文件保存数据



原文发布时间为:2018-11-16

def test_proxy():    N = 1

烂片详情页

朋友儿就只爬烂片标签页的要素数据吧,网页链接规律如下



 ●  减轻访问频率,效率 ●  使用代理IP

一般第许多都能做到,第二点减轻访问频率就会大大增加任务时间,而使用代理就能在不增加任务时长外理被封的关键(实际情形却是任务时间但是代理的使用而增加的,但这里不细说,知道就好)。

打开host.txt,挂接到了好多好多 代理IP

当前工作目录下的文件,你看!!有host.txt

def proxypool(num):    n = 1

#num获取num页 国内高匿ip的网页中代理数据def fetch_proxy(num):    #修改当前工作文件夹

执行上述写好的代码