Scrapy简介

Scrapy（/ˈskreɪpaɪ/）是一个用于抓取网站和提取结构化数据的应用程序框架，可用于各种有用的应用程序，例如数据挖掘、信息处理或历史归档。

尽管Scrapy最初是为网络抓取而设计的，但它也可以用于使用 API（例如Amazon Associates Web Services）提取数据或作为通用网络爬虫。

Scrapy安装

Python版本
Scrapy 需要 Python 3.8+，CPython 实现（默认）或 PyPy 实现（请参阅替代实现）。

开始安装

如果您使用的是Anaconda或Miniconda ，您可以从conda-forge频道安装该软件包，该频道包含适用于 Linux、Windows 和 macOS 的最新软件包。

要使用安装Scrapy conda，请运行：

plaintext

conda install -c conda-forge scrapy

或者，如果您已经熟悉 Python 包的安装，则可以使用以下命令从 PyPI 安装 Scrapy 及其依赖项：

plaintext

pip install Scrapy

我们强烈建议您将 Scrapy 安装在专用的 virtualenv中，以避免与系统包发生冲突。

请注意，有时这可能需要解决某些 Scrapy 依赖项的编译问题，具体取决于您的操作系统，因此请务必检查特定于平台的安装说明。

值得了解的事情

Scrapy 是用纯 Python 编写的，依赖于几个关键的 Python 包（其中包括）：

lxml，一个高效的 XML 和 HTML 解析器
parsel，一个基于 lxml 编写的 HTML/XML 数据提取库，
w3lib，一个处理 URL 和网页编码的多用途助手
twisted，一个异步网络框架
密码学和pyOpenSSL，应对各种网络级安全需求

Scrapy教程

创建项目

在开始抓取之前，您必须设置一个新的 Scrapy 项目。输入您要存储代码的目录并运行：

plaintext

scrapy startproject tutorial

这将创建一个tutorial包含以下内容的目录：

plaintext

tutorial/
    scrapy.cfg            # deploy configuration file

    tutorial/             # project's Python module, you'll import your code from here
        __init__.py

        items.py          # project items definition file

        middlewares.py    # project middlewares file

        pipelines.py      # project pipelines file

        settings.py       # project settings file

        spiders/          # a directory where you'll later put your spiders
            __init__.py

我们的第一只蜘蛛

蜘蛛是您定义的类，Scrapy 使用它从一个网站（或一组网站）中抓取信息。他们必须子类化Spider并定义要发出的初始请求，可选地如何跟踪页面中的链接，以及如何解析下载的页面内容以提取数据。

这是我们第一个 Spider 的代码。将其保存在项目目录quotes_spider.py下命名的文件中：tutorial/spiders

python

import scrapy
from pathlib import Path


class QuotesSpider(scrapy.Spider):
    name = "quotes"

    def start_requests(self):
        urls = [
            "https://quotes.toscrape.com/page/1/",
            "https://quotes.toscrape.com/page/2/",
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = f"quotes-{page}.html"
        Path(filename).write_bytes(response.body)
        self.log(f"Saved file {filename}")

正如你所看到的，我们的 Spider 子类化scrapy.Spider 并定义了一些属性和方法：

name：识别蜘蛛。在一个项目内必须是唯一的，即不能为不同的Spider设置相同的名称。
start_requests()：必须返回一个可迭代的请求（您可以返回请求列表或编写生成器函数），蜘蛛将开始从中爬行。后续请求将从这些初始请求连续生成。
parse()：将调用该方法来处理为每个发出的请求下载的响应。响应参数是TextResponse保存页面内容的实例，并具有进一步有用的方法来处理它。
该parse()方法通常会解析响应，将抓取的数据提取为字典，并查找要遵循的新 URL 并Request从中创建新请求 ( )。

运行我们的蜘蛛

要让我们的蜘蛛正常工作，请转到项目的顶级目录并运行：

plaintext

scrapy crawl quotes

Scrapy架构

概述

下图显示了 Scrapy 架构及其组件的概述以及系统内部发生的数据流的轮廓（由红色箭头所示）。下面包含了这些组件的简要描述以及有关它们的更详细信息的链接。下面还描述了数据流。

数据流

Scrapy中的数据流由执行引擎控制，流程如下：

引擎从Spider获取初始爬行请求。
引擎在调度程序中调度请求并请求下一个要抓取的请求。
调度程序将下一个请求返回给引擎。
引擎通过下载器中间件将请求发送到下载器process_request()。
一旦页面完成下载，下载器就会生成一个响应（包含该页面）并将其发送到引擎，通过下载器中间件，process_response()。
Engine接收来自Downloader的 Response并通过Spider Middleware将其发送到 Spider进行处理，process_spider_input()。
Spider处理 Response 并通过 Spider Middleware（请参阅参考资料）将抓取的项和新的Requests （后续）返回给Engine。process_spider_output()。
引擎将处理后的项目发送到项目管道，然后将处理后的请求发送到调度程序并请求可能的下一个爬网请求。
重复该过程（从步骤 3 开始），直到Scheduler不再发出请求。

成分

Scrapy引擎

引擎负责控制系统所有组件之间的数据流，并在发生某些操作时触发事件。有关更多详细信息，请参阅上面的数据流部分。

调度程序

调度程序接收来自引擎的请求，并将它们排队以便稍后在引擎请求时将它们提供给它们（也提供给引擎）。

下载器

下载器负责获取网页并将其提供给引擎，而引擎又将它们提供给蜘蛛。

蜘蛛

蜘蛛是由 Scrapy 用户编写的自定义类，用于解析响应并从中提取项目或要遵循的其他请求。有关详细信息，请参阅蜘蛛。

项目管道

项目管道负责在蜘蛛提取（或抓取）项目后对其进行处理。典型的任务包括清理、验证和持久化（例如将项目存储在数据库中）。有关详细信息，请参阅项目管道。

下载器中间件

下载器中间件是位于引擎和下载器之间的特定挂钩，当请求从引擎传递到下载器时处理请求，以及从下载器传递到引擎的响应。

如果您需要执行以下操作之一，请使用下载程序中间件：

在请求发送到下载器之前处理请求（即在 Scrapy 将请求发送到网站之前）；
在将收到的响应传递给蜘蛛之前更改它；
发送一个新的请求，而不是将收到的响应传递给蜘蛛；
将响应传递给蜘蛛而不获取网页；
默默地放弃一些请求。

蜘蛛中间件

蜘蛛中间件是位于引擎和蜘蛛之间的特定钩子，能够处理蜘蛛输入（响应）和输出（项目和请求）。

如果需要，请使用 Spider 中间件

蜘蛛回调的后处理输出 - 更改/添加/删除请求或项目；
后处理start_requests；
处理蜘蛛异常；
根据响应内容对某些请求调用 errback 而不是回调。

有关详细信息，请参阅Spider 中间件。

事件驱动的网络

Scrapy 是用Twisted编写的，Twisted 是一种流行的 Python 事件驱动网络框架。因此，它是使用非阻塞（又称异步）代码来实现并发性的。

Scrapy简介

Scrapy安装

开始安装

值得了解的事情

Scrapy教程

创建项目

我们的第一只蜘蛛

运行我们的蜘蛛

Scrapy架构

概述

数据流

成分

Scrapy引擎

调度程序

下载器

蜘蛛

项目管道

下载器中间件

蜘蛛中间件

事件驱动的网络

微信扫一扫：分享