爬虫是什么

46.1 爬虫是什么

爬虫(Spider)自动下载网页并提取数据的程序。

基本流程:① 发送 HTTP 请求 ② 解析 HTML ③ 保存/入库。

必须遵守法律法规和网站 robots.txt,控制频率,不爬隐私和未授权数据。

  • 合法合规第一
  • 加延时 time.sleep
  • 标明身份 User-Agent