博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
简单scrapy爬虫实例
阅读量:4678 次
发布时间:2019-06-09

本文共 786 字,大约阅读时间需要 2 分钟。

简单scrapy爬虫实例

流程分析

抓取内容:网站课程

页面:https://edu.hellobi.com

数据:课程名、课程链接及学习人数

观察页面url变化规律以及页面源代码帮助我们获取所有数据

 

1、scrapy爬虫的创建

  在pycharm的Terminal中输入以下命令:

    创建scrapy项目:scrapy startproject ts

    进入到项目目录中:cd first

    创建一个新的spider:scrapy genspider -t basic lesson hellobi.com

 

2、scrapy爬虫代码编写

2.1items文件编写

  在items.py文件中定义自己要抓取的数据,我们要爬取天善智能网站的课程、课程链接和学习人数,需要这三者的数据,所以此时创建item的三个类。

    

2.2编写spider文件(lesson.py)

  由于要提取该网站所有课程的消息,需要构造了所有的课程url。此时观察观察多个url,找出其中url变化的规律,以此来构造所有的url。由于每个课程都需要包含课程名、课程链接以及学习人数,所有设置相应的xpath,分别匹配item的三个类。

  

2.3修改pipeline.py的内容:

  将爬取到的数据写入“F:/天善课程爬取/1.txt”中。

    

2.4修改settings.py文件,配置pipeline:

  

 

3、总结

  至此,爬虫就全部编写完成了,在scrapy中xpath很重要,如果xpath提取错误的话,可能会造成许多错误。另外在输出和写入文件时也要注意,不然也会有错误发生。在程序的最后一定要关闭文件,不然最后打开文件的内容为空。

 

转载于:https://www.cnblogs.com/whliscoming/p/10795420.html

你可能感兴趣的文章
wp7下的一个生肖查询
查看>>
AOJ 0009 Prime Number
查看>>
公司生存之道
查看>>
Java利用反射来获取一个方法的 范型化参数 Vector<Integer>的类型
查看>>
htmlparser使用举例
查看>>
[Leetcode]3Sum
查看>>
十四、web基础,用html元素制作web页面
查看>>
简明python_Day8_软件开发流程
查看>>
vhdl verilog
查看>>
LeetCode 6 ZigZag Conversion 模拟 难度:0
查看>>
bootstrap入门-4.排版及其他固定样式
查看>>
WEB安全之解决CC攻击
查看>>
Html5 01(data-attributes、form-types【只在移动端使用】、svg)
查看>>
python之random模块
查看>>
visor 发布
查看>>
nginx 隐藏版本信息
查看>>
百事世界杯之旅
查看>>
Launch VINS-Mono with Realsense D435i in RTAB-Map
查看>>
以一点为中心旋转动画实现,摇摆动画
查看>>
js去除范围内所有标签并显示指定字符串
查看>>