(新版)Python 分布式爬虫和 JS 逆向进阶实战
20 案例 & 可接单级项目,提高爬虫整体实战能力
本课程从 0 到 1 建立完整的爬虫知识体系,选择 20 案例,可接单级项目,应用流行爬虫框架 Scrapy、Selenium、多种验证码识别技术,JS 反向破解层层突破反爬,带您从容抓取主流网站数据,掌握爬虫工程师的硬核技能。
你会学到:
1. 爬虫学习路径完整
2. 5 各种图像识别技术确定验证码
3. 20 案例,接单级实战项目
4. 满足应对网站爬行的N种情况
5. 15 反向破解技术对抗反爬反向破解技术
6. 掌握面试必备的爬虫技能和技能
适合人群
有 Python 爬虫零基础学生的基础
在校大学生 / 创业者 / 对爬虫开发感兴趣的人员
爬虫工程师急需提高爬虫开发能力
技术储备
Python 语法基础
环境参数
Python 3
试看连接:https://pan.baidu.com/s/1_j1rMAQfkI-4H2Cb2mz8dgpwd=zlbn
章节目录:
第1章 走近 Python 爬虫开发
5 节|24分钟
收起
视频:
1-1 爬虫能解决什么问题?
试看
11:15
视频:
1-2 为什么要学习? python 爬虫开发
试看
03:07
视频:
1-3 介绍课程内容,学习目标
试看
05:56
图文:
1-4 欢迎加入QQ学习交流群欢迎加入
视频:
1-5 【必看】行有行规,爬虫有虫规
03:20
第2章 你准备好开发爬虫了吗?
3 节|22分钟
收起
视频:
2-1 环境准备:建设爬虫开发环境
09:06
视频:
2-2 方法准备:良好的学习方法,使编程事半功倍
07:03
视频:
2-3 心态准备:克除浮躁,港大霸带你一路坚持下去。
05:23
第3章 如何及时获取最新的网页数据?
4 节|28分钟
收起
视频:
3-1 爬虫要求的基础:HTTP 基础知识
10:20
视频:
3-2 Requests 模块要求网页数据
06:18
视频:
3-3 携带 Headers 请求头,模拟真人请求头,
05:11
视频:
3-4 设置 Proxy 代理 IP,突破 IP 封锁
05:56
第4章 如何提取网页数据?
10 节|115分钟
收起
视频:
4-1 网页关键数据如何提取?
03:09
视频:
4-2 第一种方法:正则表达式解析数据
06:47
视频:
4-3 【补充】正则表达式语法基础(1)
17:46
视频:
4-4 【补充】正则表达式语法基础(二)
15:03
视频:
4-5 【实战】 电影天堂:爬电影详情页
15:05
视频:
4-6 【实战】 电影天堂:爬取全站分页数据
10:56
视频:
4-7 第二种方法:XPath 解析数据
07:23
视频:
4-8 【补充】XPath 语法基础
19:20
视频:
4-9 【实战】纵横中文网:爬小说详情页
10:40
视频:
4-10 【实战】纵横中文网:排行榜全部小说爬
08:46
第5章 如何存储获得的数据?
8 节|52分钟
收起
视频:
5-1 如何长期存储数据?
8 节|52分钟
收起
视频:
5-1 如何长期存储数据?主流数据存储模式?
06:46
视频:
5-2 MongoDB 数据库概述
03:53
视频:
5-3 MongoDB 安装配置(MacOS)
07:46
视频:
5-4 MongoDB 安装配置(Windows)
04:48
视频:
5-5 Python 连接 MongoDB 数据库
10:10
视频:
5-6 【实战】豆瓣网:爬电影排行榜数据
09:36
视频:
5-7 【实战】豆瓣网:获取下滑加载的翻页数据
04:43
视频:
5-8 豆瓣网:将数据存储到豆瓣网: MongoDB 数据库
04:10
第6章 Scrapy 框架快速爬行海量数据
13 节|79分钟
收起
视频:
6-1 海量数据如何高效爬行?
03:25
视频:
6-2 第一个 Scrapy 爬虫项目
07:16
视频:
6-3 Scrapy 梳理框架结构
04:11
视频:
6-4 Scrapy XPath 解析数据
06:14
视频:
6-5 通过 Pipelines 管道实现数据保存
05:43
视频:
6-6 Scrapy MongoDB 数据持久存储
03:07
视频:
6-7 Middleware 中间件,处理发动机和下载器之间的请求和响应
05:07
视频:
6-8 Scrapy 伪装爬虫手段1:设置动态 User-Agent
03:25
视频:
6-9 Scrapy 伪装爬虫手段2:设置代理 IP
02:43
视频:
6-10 【实战】豆瓣书:Scrapy 伪装爬虫爬新书快递
11:18
视频:
6-11 【实战】豆瓣书:新书速递数据解析、存储
10:50
视频:
6-12 CrawlSpider 爬虫,为全站爬行而生 Scrapy 爬虫子类
06:44
视频:
6-13 【实战】聚美优品:CrawlSpider 爬行并存储商品信息
08:52
第7章 Scrapy-Redis 分布式爬虫使爬行效率更高
10 节|69分钟
收起
视频:
7-1 如何提高爬行效率?
02:27
视频:
7-2 什么是 Scrapy-Redis 分布式爬虫?
06:26
视频:
7-3 Redis 数据库概述
03:03
视频:
7-4 Redis 数据库安装配置(MacOS)
04:00
视频:
7-5 Redis 数据库安装配置(Windows)
04:20
视频:
7-6 Python 操作 Redis 数据库
10:29
视频:
7-7 从零开始实现一个简单的分布式爬虫
14:54
视频:
7-8 Redis 数据保存至 MongoDB 数据库
05:20
视频:
7-9 京东商城:分布式爬虫(1)
13:25
视频:
7-10 【实战】京东商城:分布式爬虫(2)
04:27
第8章 Scrapy Selenium 框架模拟登录
9 节|53分钟
收起
视频:
8-1 通过 Cookie 和 Session 实现用户登录的原则
05:57
视频:
8-2 模拟登录方法1:Requests 模块 Cookie 实现登录
06:07
视频:
8-3 Cookie Session 登录并获取数据
06:27
视频:
8-4 模拟登录方法二:Selenium 实现自动登录
02:47
视频:
8-5 【补充】Selenium 基础:安装配置
05:51
视频:
8-6 【补充】Selenium 基础:元素定位方法
07:40
视频:
8-7 【补充】Selenium 基础:元素交互
05:52
视频:
8-8 Scrapy Selenium 实现登录
04:56
视频:
8-9 Scrapy Selenium 登录后抓取数据
06:24
第9章 OpenCV 图像识别技术确定验证码识别前的基础
8 节|43分钟
收起
视频:
9-1 什么是 OpenCV 图像识别技术?
02:36
视频:
9-2 OpenCV 图像基础操作
05:26
视频:
9-3 修改图像像素和颜色
06:15
视频:
9-4 修改图像 region of interest 指定区域
02:35
视频:
9-5 图像数值运算,二值化处理
09:27
视频:
9-6 平滑处理图像
03:17
视频:
9-7 形态图像处理
07:48
视频:
9-8 滑块验证码的基础:模板匹配
04:39
第10章 OpenCV 图像验证码识别和滑块验证码识别
10 节|60分钟
收起
视频:
10-1 百度 OCR 云服务的文字识别
05:45
视频:
10-2 【实战】维普网:获取图片验证码
05:03
视频:
10-3 【实战】维普网:OpenCV OCR 识别验证码
07:28
视频:
10-4 【实战】维普网:Selenium 登录并获取数据
04:55
视频:
10-5 【实战】维普网:处理识别出错的问题
03:21
视频:
10-6 滑块验证码识别逻辑梳理
02:11
视频:
10-7 【实战】猎聘网:获取滑块验证码
09:24
视频:
10-8 【实战】猎聘网:OpenCV 计算滑动距离
08:45
视频:
10-9 【实战】猎聘网:Selenium 模拟滑动轨迹
08:38
视频:
10-10 【实战】猎聘网:处理识别出错的问题
03:32
第11章 EasyDL 机器学习识别验证码和云码平台一站式识别
7 节|35分钟
收起
视频:
11-1 EasyDL 机器学习基础
04:03
视频:
11-2 【实战】京东商城:批量获取验证码图片
07:56
视频:
11-3 【实战】京东商城:信息标注 & 训练模型
04:23
视频:
11-4 【实战】京东商城:调用 EasyDL API 接口识别验证码
05:20
视频:
11-5 云平台使用基础
01:29
视频:
11-6 【实战】豆瓣网:获取验证码图片
07:10
视频:
11-7 【实战】豆瓣网:云码平台滑块验证码识别
04:23
第12章 加密爬虫与反爬虫对抗的文字
第13章 爬虫与反爬的对抗 JS 逆向
第14章 爬虫与反爬的对抗 JS 逆向进阶
第15章 【综合实战】Scrapy-Redis 验证码识别 Selenium爬海量数据
第16章 [扩展]视频网站数据分析
第17章 【加餐】爬虫高频面试题
第18章 课程总结