Scrapy自动切换代理IP教程：中间件配置与重试实现

419 阅读 0 评论 35 点赞

在 Scrapy 里实现自动切换代理 IP，稳妥的做法通常是把代理分配逻辑放到下载中间件中：请求发出前写入 request.meta['proxy']，请求失败或命中封禁信号后再触发重试和换代理。若只是想尽快跑起来，第三方库方案更省事；如果需要从 API 动态取代理、做失效剔除和代理池管理，自定义中间件通常更适合长期使用。

先确定你该用哪种方式

在 Scrapy 中实现代理轮换，核心不只是“能不能切换”，而是代理来源是否动态、失败后能不能及时剔除、是否要和重试机制配合。这决定了你该选第三方库还是自己写中间件。

可以先按这个思路判断：

方案	适合场景	主要特点
第三方库	小项目、验证需求、代理数量不多	上手快，配置简单
自定义中间件	需要 API 动态获取代理、长期采集、要做细粒度控制	灵活，便于接入代理池和重试逻辑

如果你使用的是固定代理列表，第三方库方案通常就够用。如果你的代理是通过接口实时获取，或者你需要根据状态码、异常类型、站点规则做不同处理，自定义下载中间件会更实用。

第三方库怎么接入

第三方库方案的优势是快，尤其适合先验证 Scrapy 自动切换代理 IP 是否能满足当前任务。

先安装依赖：

pip install scrapy-rotating-proxies

然后在 settings.py 里启用对应中间件，并配置代理列表：

DOWNLOADER_MIDDLEWARES = {
    'rotating_proxies.middlewares.RotatingProxyMiddleware': 610,
    'rotating_proxies.middlewares.BanDetectionMiddleware': 620,
}
ROTATING_PROXY_LIST = [
    'http://user1:pass1@proxy1.com:8000',
    'http://user2:pass2@proxy2.com:8001',
    'http://proxy3.com:8080',
]

这个方案的重点在于，它会在请求过程中自动分配代理，并根据响应结果做基础封禁判断。对很多简单采集任务来说，这已经能解决“Scrapy 怎么轮换代理 IP”的问题。

但它也有边界：如果你的代理不是预先写死在列表里，而是要从接口动态拉取，那么维护起来会比较别扭；如果你还要做代理预热、失效剔除、池化缓存，这种方式就不够灵活。

自定义中间件怎么实现动态切换

生产环境里更常见的方式，是自己写一个下载中间件，在 process_request 里取代理，在 process_response 或 process_exception 里判断代理是否失效。

一个常见思路如下：

import requests
class DynamicProxyMiddleware:
    def __init__(self, proxy_api_url):
        self.proxy_api_url = proxy_api_url
    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler.settings.get('PROXY_API_URL'))
    def _get_proxy(self):
        try:
            resp = requests.get(self.proxy_api_url, timeout=5)
            if resp.status_code == 200:
                return resp.text.strip()
        except Exception:
            return None
    def process_request(self, request, spider):
        proxy = self._get_proxy()
        if proxy:
            request.meta['proxy'] = f'http://{proxy}'
    def process_response(self, request, response, spider):
        if response.status in [403, 407, 429, 503]:
            return request.replace(dont_filter=True)
        return response

在 settings.py 中启用：

DOWNLOADER_MIDDLEWARES = {
    'your_project.middlewares.DynamicProxyMiddleware': 543,
}
PROXY_API_URL = 'https://your-api-url'
RETRY_ENABLED = True
RETRY_TIMES = 3
AUTOTHROTTLE_ENABLED = True
DOWNLOAD_DELAY = 1

这里最关键的不是把代码先写出来，而是理解几个运行点。

自定义方案的关键点

第一，process_request 负责给请求绑定代理。
第二，process_response 用来识别封禁或异常响应。
第三，process_exception 最好也补上，这样遇到超时、连接失败时可以立即换代理。
第四，不要每次请求都现拉一个代理；如果请求量大，建议先拉到本地代理池里再分发。

如果你的业务已经是持续采集，而不是一次性脚本，那么“代理池 + 中间件 + 重试”通常会比“每次实时调 API”更稳。

常见踩坑与注意事项

Scrapy 自动切换代理 IP 失败，很多时候不是代码不会换，而是配套没有做好。

中间件优先级和配置拼写

DOWNLOADER_MIDDLEWARES 必须写对，优先级也要合理。很多问题就卡在这里，不是逻辑错，而是配置项拼错后中间件根本没生效。

代理协议要匹配

request.meta['proxy'] 一般写成 http://ip:port 形式。即使目标站点是 HTTPS，很多代理接入方式依然是这个格式。真正要确认的是代理服务支持的协议方式，而不是只看目标网址。

重试机制必须配合

如果你在 process_response 里只是判断到了 403、429，却没有返回重试请求，或者没有启用 RETRY_ENABLED，那就算检测到了失效代理，也不会自动切换成功。

不要忽略请求频率

即使已经用了动态代理 IP，请求速度过快、并发设置过猛，也一样可能触发站点风控。AUTOTHROTTLE_ENABLED、DOWNLOAD_DELAY、请求头伪装等设置，最好一起配合调整。

长期采集时的接入思路

如果你只是学习 Scrapy 代理切换，中间件能跑通就够了；但如果你已经进入持续采集阶段，更值得关注的是请求环境是否一致、代理资源是否能持续补充，以及接入方式是否适合工程化维护。

这时候，代理服务不只是“给几个 IP”这么简单，还关系到后续的调度方式和接入成本。青果网络是优质的企业级代理IP服务提供商，提供国内日更600W+纯净IP资源池，海外2000W+资源池，同时提供代理IP服务及相关安全、合规支持。对于需要通过 API 或工程化方式接入代理资源的场景，这类服务更适合纳入长期评估，尤其适合持续性业务场景中的资源调度和规则适配。

如果你的 Scrapy 项目已经从本地测试走向持续运行，那么在中间件之外，也要同步考虑代理来源的持续补充、调用方式的一致性，以及后续维护成本。

总结

在 Scrapy 中实现自动切换代理 IP，核心做法就是通过下载中间件在请求前绑定代理，并在响应异常或封禁时触发重试。第三方库适合快速搭建，自定义中间件更适合 API 动态代理和长期采集；如果业务已经进入持续运行阶段，也可以把青果网络这类提供代理IP服务及相关安全、合规支持的方案一并纳入评估。

常见问题解答

Q1：Scrapy 自动切换代理 IP 一定要自己写中间件吗？
A1：不一定，简单场景可以直接用第三方库；但需要动态代理池、失效剔除时，自定义中间件会更灵活。

Q2：为什么已经设置了 request.meta['proxy']，还是经常请求失败？
A2：常见原因包括代理本身失效、重试机制没开、请求频率过高，或者目标站点还有额外风控规则。

Q3：动态代理是每次请求都实时从 API 获取更好吗？
A3：小规模请求可以这样做，但长期来看更建议先维护本地代理池，再由中间件分发，效率和可控性通常更好。

青果网络代理IP - CTA Banner

企业级代理IP服务商

10年专注网络服务
千万级纯净 IP 池，覆盖全国390+城市
累计服务客户超8.5万

立即免费试用

// 青果网络企业级API示例
const config = {
  auth: "QGE_Enterprise_Key",
  region: "CN_ALL"
};

async function getProxy() {
  const res = await qgClient.fetch(config);
  console.log("Stable Connection.");
  return res.ip;
}