在爬取国外的某个网站的时候,刚开始他们是封ip,优化好ip池,准备大展身手的时候,数据顺利的爬取完毕后,发现数据有重复的。然后研究了一下,
最后的原因是他们的后台发现是爬虫以后,直接给抛出假的数据。上证据:
解决办法:
每个ip的访问次数尽量的少,尽量用多的ip抓取,抓取速度尽量的慢一些。
本文共 145 字,大约阅读时间需要 1 分钟。
在爬取国外的某个网站的时候,刚开始他们是封ip,优化好ip池,准备大展身手的时候,数据顺利的爬取完毕后,发现数据有重复的。然后研究了一下,
最后的原因是他们的后台发现是爬虫以后,直接给抛出假的数据。上证据:
解决办法:
每个ip的访问次数尽量的少,尽量用多的ip抓取,抓取速度尽量的慢一些。
转载地址:http://siinl.baihongyu.com/