python 爬虫入门:scrapy 爬取书籍的一些信息

olei 3,566 views 4
  • 爬取这个网上的书籍 http://www.allitebooks.com/security/
  • 然后价格等信息在亚马逊上爬取:https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=xxx       # xxx 表示的是下面爬取的 isbn
  • 用的是 python3.6
  • 微博、小程序查看代码混乱,请查看原文~

准备

  • 安装的包
Shell
  1. $ pip install scrapy
  2. $ pip install pymysql
复制 文本 高亮
  • 需要了解的一些 scrapy 知识

Spider

Spider 类想要表达的是:如何抓取一个确定了的网站的数据。比如在 start_urls 里定义的去哪个链接抓取,parse() 方法中定义的要抓取什么样的数据。
当一个 Spider 开始执行的时候,它首先从 start_urls() 中的第一个链接开始发起请求,然后在 callback 里处理返回的数据。

Items

Item 类提供格式化的数据,可以理解为数据 Model 类。

Selectors

Scrapy 的 Selector 类基于 lxml 库,提供 HTML 或 XML 转换功能。以 response 对象作为参数生成的 Selector 实例即可通过实例对象的 xpath() 方法获取节点的数据。

编写

新建项目

Shell
  1. $ scrapy startproject book_scrapy
复制 文本 高亮

这个是创建一个名为 book_scrapy 的项目

新建爬虫

Shell
  1. $ cd book_sacrpy/
  2. $ scrapy genspider book_spiser allitebooks.com
复制 文本 高亮
  • 结构如下:
Source Code
  1. ├── book_sacrpy
  2.    ├── __init__.py
  3.    ├── items.py
  4.    ├── middlewares.py
  5.    ├── pipelines.py
  6.    ├── settings.py
  7.    └── spiders
  8.    ├── __init__.py
  9.    └── book_spiser.py
  10. └── scrapy.cfg
复制 文本 高亮

提示:pycharm 里面可以一步到位

编写 Items 类,就是要获取的东西都这里

Python
  1. # -*- coding: utf-8 -*-
  2.  
  3. # Define here the models for your scraped items
  4. #
  5. # See documentation in:
  6. # http://doc.scrapy.org/en/latest/topics/items.html
  7.  
  8. import scrapy
  9.  
  10.  
  11. class BookItem(scrapy.Item):
  12. # define the fields for your item here like:
  13. # name = scrapy.Field()
  14. # pass
  15. title = scrapy.Field()
  16. isbn = scrapy.Field()
  17. price = scrapy.Field()
复制 文本 高亮

说明:

  • title 表示书的标题
  • isbn 表示书的编号,这样可以从亚马逊里面查到
  • price 表示价格,进入亚马逊之后爬取

编写 Spider 爬虫

就是 spider 文件夹下的 book_spider.py 文件,具体代码如下,css,xpath 的分析省略

Python
  1. # -*- coding: utf-8 -*-
  2. import scrapy
  3.  
  4. from book_sacrpy.items import BookItem
  5.  
  6.  
  7. class BookSpiserSpider(scrapy.Spider):
  8. name = 'book_spiser'
  9. allowed_domains = ['allitebooks.com','amazon.com']
  10. start_urls = ['http://allitebooks.com/security/',]
  11.  
  12. def parse(self, response):
  13. num_pages = int(response.xpath('//a[contains(@title, "Last Page →")]/text()').extract_first())
  14. base_url = "http://www.allitebooks.com/security/page/{0}/"
  15. for page in range(1,num_pages):
  16. yield scrapy.Request(base_url.format(page),dont_filter=True,callback=self.pare_page)
  17.  
  18.  
  19. def pare_page(self,response):
  20. for ever in response.css('.format-standard'):
  21. book_url = ever.css('.entry-thumbnail a::attr(href)').extract_first("")
  22. yield scrapy.Request(book_url,callback=self.pare_book_info)
  23.  
  24.  
  25. def pare_book_info(self,response):
  26. title = response.css('.single-title').xpath('text()').extract_first()
  27. isbn = response.xpath('//dd[2]/text()').extract_first('').replace(' ','')
  28. items = BookItem()
  29. items['title'] = title
  30. items['isbn'] = isbn
  31. amazon_price_url = 'https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=' + isbn
  32. yield scrapy.Request(amazon_price_url,callback=self.pare_book_price,meta={'items': items})
  33.  
  34.  
  35. def pare_book_price(self,response):
  36. items = response.meta['items']
  37. items['price'] = response.xpath('//span/text()').re(r'\$[0-9]+\.[0-9]{2}?')[0]
  38. yield items
复制 文本 高亮

说明:

  • 导入前面编写的 Items,是将爬取的数据通过 yield 方式提交
  • 新建类继承的是 scrapy.Spider 类
  • name 为爬虫的名字,allowed_domains 表示允许的域名,start_urls 表示爬取的时候的入口 url

运行:

爬取写入到一个 csv 文件

Shell
  1. $ scrapy crawl book_sacrpy -o books.csv
复制 文本 高亮

拓展

写入 mysql

介绍

  • pipelines.py 文件,是管道文件,数据传入 item 之后,会再传给 pipeline,所以可以在 pipelines.py 里面写各种存数据的方式
  • middlewares.py 文件,是中间件文件,一般写爬虫的 IP 代理,user-agent 等
  • settings.py 文件,是设置文件,里面主要是设置开启关闭 pipelines、middlewares、是否爬取 robots.txt 等,也可以在这里面设置一些 mysql 的动态修改的文件等

我们暂时不用中间件,数据库自己提前设置好表头等信息

pipelines.py 代码:

Python
  1. # -*- coding: utf-8 -*-
  2.  
  3. # Define your item pipelines here
  4. #
  5. # Don't forget to add your pipeline to the ITEM_PIPELINES setting
  6. # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
  7.  
  8. import pymysql
  9. from book_sacrpy.items import BookItem
  10.  
  11. class BookIntodbPipeline(object):
  12.  
  13. def __init__(self):
  14. self.conn = pymysql.connect("localhost","root","root","book",charset="utf8")
  15. self.cursor = self.conn.cursor()
  16.  
  17.  
  18. def process_item(self, item, spider):
  19. insert_sql = '''
  20. insert into book(title,isbn,price) VALUES ('{}','{}','{}')
  21. '''
  22. self.cursor.execute(insert_sql.format(item['title'],item['isbn'],item['price']))
  23. self.conn.commit()
  24. # return item
复制 文本 高亮

设置 settings.py 文件

Python
  1. ITEM_PIPELINES = {
  2. 'book_sacrpy.pipelines.BookIntodbPipeline': 300,
  3. }
复制 文本 高亮

将上面这一段注释掉,写入我们编写的那个 pipeline,数字越大表示越靠后,里面可以写多个 pipeline

运行

Shell
  1. $ scrapy crawl book_spiser
复制 文本 高亮
  • 每次运行都要输入三个命令,下面介绍一种快速运行的方式

写一个 run.py 文件,代码如下:

Python
  1. # coding:utf8
  2.  
  3. from scrapy.cmdline import execute
  4.  
  5. import sys
  6. import os
  7.  
  8.  
  9. sys.path.append(os.path.dirname(os.path.abspath(__file__)))
  10. execute(["scrapy", "crawl", "book_spiser"])
复制 文本 高亮

以后只需要运行一个 python  run.py

发表评论 取消回复
表情 图片 链接 代码

  1. 残影
    残影 Lv 1

    谢谢博主分享!

    • olei
      olei 站长

      @残影哈哈,共同学习~

  2. 陈鑫威博客
    陈鑫威博客 Lv 1

    来看看,活跃友链

分享