一份持续调整刷新的 Python 爬虫学习计划
1

知识背景:本科计算机专业 + 4年Linux下C/C++开发经历 + 了解Python2基础知识
目标版本:Python3
目标方向:网络爬虫
本文定位:罗列学习路线、学习资源、详细知识点

1 Python语言基础及常用特性

资源:

1.1 入门

个人文档链接Python 的基本数据类型和变量

1.2 内置容器

个人文档链接Python 的内置容器

1.3 流程控制

个人文档链接: Python 的流程控制

1.4 函数

个人文档链接Python 的函数和装饰器

杂谈 -- 变量、可变对象与不可变对象、浅拷贝与深拷贝、函数传参

个人文档链接杂谈 -- 变量、可变对象与不可变对象、浅拷贝与深拷贝、函数传参

生成器与迭代器

个人文档链接Python的生成器与迭代器

1.5 面向对象编程

个人文档链接Python 的面向对象编程

1.6 异常、调试、测试

个人文档链接Python 的异常、调试、测试

1.7 文件操作

个人文档链接Python 的文件操作

1.8 进程和线程

个人文档链接

1.9 模块和包

个人文档链接Python 的模块和包

1.10 扩展Python

个人文档链接

1.11 程序打包

个人文档链接

2 爬虫相关知识准备

资源:

2.1 网页的组成与结构基础知识

HTML/HTML5、CSS/CSS3、Javascript

2.2 HTTP和HTTPS协议基本原理

2.3 正则表达式

re模块

2.4 浏览器使用

审查元素、跟踪请求消息

2.5 数据库基础

SQL、MySQL

3 Python爬虫学习

资源:

  • B《Python网络数据采集》(Python3) -- 200页薄本,入门级,全面浅层了解Python爬虫
  • B《Python 3网络爬虫开发实战》-- 590页,全面深入讲解Python爬虫各个方面
  • 慕课网、公众号等收费视频教程

3.1 网络相关模块

urllibhttplibCookieRequests

3.2 数据处理相关模块

JSON数据:json
xml数据:untanglexmltodict
HTML数据:BeautifulSouplxml

3.3 数据库相关模块

dbmsqlite3

3.4 反爬虫问题

模拟登录、验证码破解、IP限制、数据加密、代理 等

3.5 大规模爬虫问题

分布式、消息队列、缓存 等

3.6 爬虫框架

ScrapyPySpider

4 Python进阶学习

资源:

  • B《Python核心编程》
  • B《Python Cookbook》
  • B《流畅的Python》
  • B《Python源码剖析》
  • 网络上的高阶视频教程
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

  • 请注意单词拼写,以及中英文排版,参考此页
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
  • 支持表情,使用方法请见 Emoji 自动补全来咯,可用的 Emoji 请见 :metal: :point_right: Emoji 列表 :star: :sparkles:
  • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif
  • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
  请勿发布不友善或者负能量的内容。与人为善,比聪明更重要!