为什么爬虫会被封IP
网络爬虫在短时间内向同一网站发送大量请求,服务器检测到异常访问频率后,会将该IP加入黑名单。
使用代理IP防封策略
1. IP轮换策略
每次请求随机选取一个代理IP,降低同一IP的访问频率。
2. 延时请求
在请求之间添加随机延时(1-5秒),模拟正常用户的访问行为。
3. User-Agent轮换
配合使用不同的User-Agent,进一步提高反爬识别难度。
Python示例代码
import requests\nimport random\n\nproxies_list = ['http://ip1:port', 'http://ip2:port']\nproxy = random.choice(proxies_list)\n\nheaders = {'User-Agent': 'Mozilla/5.0 ...'}\nresponse = requests.get(url, proxies={'http': proxy}, headers=headers) 
