爬虫是什么
46.1 爬虫是什么
爬虫(Spider)自动下载网页并提取数据的程序。
基本流程:① 发送 HTTP 请求 ② 解析 HTML ③ 保存/入库。
必须遵守法律法规和网站 robots.txt,控制频率,不爬隐私和未授权数据。
- 合法合规第一
- 加延时 time.sleep
- 标明身份 User-Agent
爬虫(Spider)自动下载网页并提取数据的程序。
基本流程:① 发送 HTTP 请求 ② 解析 HTML ③ 保存/入库。
必须遵守法律法规和网站 robots.txt,控制频率,不爬隐私和未授权数据。