博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy入门——爬取豆瓣读书(单页面)
阅读量:6243 次
发布时间:2019-06-22

本文共 4154 字,大约阅读时间需要 13 分钟。

scrapy基本知识

scrapy的整体架构

  • 引擎(Scrapy Engine),用来处理整个系统的数据流处理,触发事务
  • 调度器(Scheduler),用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回
  • 下载器(Downloader),用于下载网页内容,并将网页内容返回给蜘蛛
  • 蜘蛛(Spiders),蜘蛛是主要干活的,用它来制订特定域名或网页的解析规则。编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。 每个spider负责处理一个特定(或一些)网站
  • 项目管道(Item Pipeline),负责处理有蜘蛛从网页中抽取的项目,他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并经过几个特定的次序处理数据
  • 下载器中间件(Downloader Middlewares),位于Scrapy引擎和下载器之间的钩子框架,主要是处理Scrapy引擎与下载器之间的请求及响应。
  • 蜘蛛中间件(Spider Middlewares),介于Scrapy引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛的响应输入和请求输出。
  • 调度中间件(Scheduler Middlewares),介于Scrapy引擎和调度之间的中间件,从Scrapy引擎发送到调度的请求和响应。

items

爬取的主要目标就是从非结构性的数据源提取结构性数据,例如网页。 Scrapy提供  类来满足这样的需求。

Spiders

Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方

选择器(Selectors)

Scrapy提取数据有自己的一套机制。它们被称作选择器(seletors),因为他们通过特定的  或者  表达式来“选择” HTML文件中的某个部分。

Item Pipeline

当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。

更多参考scrapy文档 https://docs.scrapy.org/en/latest/intro/tutorial.html

参考http://aljun.me/post/4

 

 

创建项目

scrapy startproject doubanread

 

定义Item

编辑item.py

# -*- coding: utf-8 -*-import scrapyclass DoubanreadItem(scrapy.Item):    # define the fields for your item here like:    # name = scrapy.Field()    book_name = scrapy.Field()    book_url = scrapy.Field()    book_star = scrapy.Field()    book_about = scrapy.Field()

 

编写爬虫

import scrapyimport sysfrom doubanread.items import DoubanreadItemreload(sys)sys.setdefaultencoding('utf8')class DoubanreadSpider(scrapy.Spider):    name = "doubanread"    allowed_domains = []    start_urls = [        "https://book.douban.com/tag/%E5%8E%86%E5%8F%B2?type=S"    ]    def parse(self, response):        for sel in response.xpath('//li/div[2]'):            item = DoubanreadItem()            book_name = sel.xpath('h2/a/text()').extract()            book_url = sel.xpath('h2/a/@href').extract()            book_star = sel.xpath('div[2]/span[2]/text()').extract()            book_about = sel.xpath('div[1]/text()').extract()            item['book_name'] = [n.encode('utf-8') for n in book_name]            item['book_url'] = [url for url in book_url]            item['book_star'] = [s for s in book_star]            item['book_about'] = [a.encode('utf-8') for a in book_about]            yield item

 

处理数据,保存为json

# -*- coding: utf-8 -*-# Define your item pipelines here## Don't forget to add your pipeline to the ITEM_PIPELINES setting# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.htmlimport sysimport jsonimport codecsreload(sys)sys.setdefaultencoding('utf8')class DoubanreadPipeline(object):    def __init__(self):        self.file = codecs.open('doubanread.json',mode='wb',encoding='utf-8')    def process_item(self, item, spider):        # 保存为txt文件        # filename  = 'doubanread.txt'        # with open(filename,'a') as fp:        #     for i in range(len(item['book_name'])):        #         fp.write(item['book_name'][i]+'\t'+item['book_star'][i]+'\t'+item['book_about'][i]+'\t'+item['book_url'][i])        # return item        line = 'the new movie list:' + '\n'        for i in range(len(item['book_star'])):            book_name = {
'book_name':str(item['book_name'][i]).replace('\n','')} book_star = {
'book_star': item['book_star'][i].replace('\n','')} book_url = {
'book_url': item['book_url'][i].replace('\n','')} book_about = {
'book_about':str(item['book_about'][i]).replace(' ','').replace('\n','')} line = line + json.dumps(book_name, ensure_ascii=False) line = line + json.dumps(book_star, ensure_ascii=False) line = line + json.dumps(book_url,ensure_ascii=False) line = line + json.dumps(book_about,ensure_ascii=False) +'\n' self.file.write(line) def close_spider(self,spider): self.file.close()

 

settings.py加上一句:

ITEM_PIPELINES={    'doubanread.pipelines.DoubanreadPipeline':300,}

 

访问服务器时可能出现403的代码,原因服务器识别到不是浏览器访问的反爬虫机制

可以在settings.py加上一句:

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36

 

进入项目目录下,执行

scrapy crawl doubanread

 

生成新文件doubanread.json

 

转载于:https://www.cnblogs.com/xiangshigang/p/7273370.html

你可能感兴趣的文章
Linux课程---7、shell技巧(获取帮助命令)
查看>>
写一个类似淘宝的ios app需要用到哪些技术?
查看>>
#505. 「LibreOJ β Round」ZQC 的游戏
查看>>
#iOS问题记录# UITextview富文本链接,禁止长按事件
查看>>
深度网络实现手写体识别
查看>>
Python Module_subprocess_调用 Powershell
查看>>
MVC原理图解
查看>>
c基础
查看>>
nodejs 平台的 webscoket 的实现
查看>>
JDK1.8源码(三)——java.util.HashMap
查看>>
给你1000万你可以把生活过的更好吗?
查看>>
<jsp:include page>和<%@ include file%>的区别
查看>>
flash 类和对象的关系
查看>>
保护模式 宏观理解
查看>>
Hat’s Words
查看>>
has_many :through VS has_and_belongs_to_many
查看>>
比较JSF、Spring MVC、Stripes、Struts 2、Tapestry、Wicket
查看>>
正则表达式介绍及案例分享
查看>>
【BZOJ】2125: 最短路 圆方树(静态仙人掌)
查看>>
【BZOJ】4530: [Bjoi2014]大融合
查看>>