博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Scrapy框架----- Settings
阅读量:6224 次
发布时间:2019-06-21

本文共 1645 字,大约阅读时间需要 5 分钟。

Settings

Scrapy设置(settings)提供了定制Scrapy组件的方法。可以控制包括核心(core),插件(extension),pipeline及spider组件。比如 设置Json Pipeliine、LOG_LEVEL等。

参考文档:

内置设置参考手册

  • BOT_NAME

    • 默认: 'scrapybot'

    • 当您使用 startproject 命令创建项目时其也被自动赋值。

  • CONCURRENT_ITEMS

    • 默认: 100

    • Item Processor(即 Item Pipeline) 同时处理(每个response的)item的最大值。

  • CONCURRENT_REQUESTS
    • 默认: 16

    • Scrapy downloader 并发请求(concurrent requests)的最大值。

  • DEFAULT_REQUEST_HEADERS
    • 默认: 如下

      {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'en',}

      Scrapy HTTP Request使用的默认header。

  • DEPTH_LIMIT

    • 默认: 0

    • 爬取网站最大允许的深度(depth)值。如果为0,则没有限制。

  • DOWNLOAD_DELAY
    • 默认: 0

    • 下载器在下载同一个网站下一个页面前需要等待的时间。该选项可以用来限制爬取速度, 减轻服务器压力。同时也支持小数:

    DOWNLOAD_DELAY = 0.25 # 250 ms of delay

    • 默认情况下,Scrapy在两个请求间不等待一个固定的值, 而是使用0.5到1.5之间的一个随机值 * DOWNLOAD_DELAY 的结果作为等待间隔。
  • DOWNLOAD_TIMEOUT

    • 默认: 180

    • 下载器超时时间(单位: 秒)。

  • ITEM_PIPELINES
    • 默认: {}

    • 保存项目中启用的pipeline及其顺序的字典。该字典默认为空,值(value)任意,不过值(value)习惯设置在0-1000范围内,值越小优先级越高。

      ITEM_PIPELINES = {'mySpider.pipelines.SomethingPipeline': 300,'mySpider.pipelines.ItcastJsonPipeline': 800,}
  • LOG_ENABLED

    • 默认: True

    • 是否启用logging。

  • LOG_ENCODING

    • 默认: 'utf-8'

    • logging使用的编码。

  • LOG_LEVEL

    • 默认: 'DEBUG'

    • log的最低级别。可选的级别有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。

  • USER_AGENT
    • 默认: "Scrapy/VERSION (+)"

    • 爬取的默认User-Agent,除非被覆盖。

  • PROXIES: 代理设置
    • 示例:

      PROXIES = [  {'ip_port': '111.11.228.75:80', 'password': ''},  {'ip_port': '120.198.243.22:80', 'password': ''},  {'ip_port': '111.8.60.9:8123', 'password': ''},  {'ip_port': '101.71.27.120:80', 'password': ''},  {'ip_port': '122.96.59.104:80', 'password': ''},  {'ip_port': '122.224.249.122:8088', 'password':''},]
  • COOKIES_ENABLED = False
    • 禁用Cookies

转载于:https://www.cnblogs.com/joshuazc/p/9791316.html

你可能感兴趣的文章
微信开发之推广支持
查看>>
第 50 章 Resin
查看>>
服务器操作系统应该选择Debian/Ubuntu还是CentOS?
查看>>
Hbase集群master.HMasterCommandLine: Master exiting
查看>>
程序员面试宝典——总结
查看>>
sqlplus / as sysdba无法登录的奇怪报错
查看>>
管理的艺术(转)
查看>>
java命令行HPROF Profiler(转)
查看>>
微服务系统中的认证策略
查看>>
关于httpservletrequest的获取真实的ip
查看>>
[20170628]11g修改用户名.txt
查看>>
siebel CRM初学
查看>>
JS组件系列——Bootstrap寒冬暖身篇:弹出框和提示框效果以及代码展示
查看>>
linux命令之iotop
查看>>
老板必备:核心员工跳槽时,必聊的8个话题(转)
查看>>
C++ 中vector的使用方法
查看>>
基于mysqldump搭建gtid主从
查看>>
Apache Flink fault tolerance源码剖析(五)
查看>>
HTAP数据库 PostgreSQL 场景与性能测试之 18 - (OLAP) 用户画像圈人场景 - 数组包含查询与聚合...
查看>>
GitHub最新命令使用教程
查看>>