爬虫学习


一、小试牛刀

# 用程序模拟浏览器,输入一个网址,从该网址获取资源
from urllib.request import urlopen

url= "http://www.baidu.com"
resp=urlopen(url)
print(resp.read().decode("utf-8"))         # 读取url并解码
with open("mybaidu.html",mode="w",encoding="utf-8") as f:
    f.write(resp.read().decode("utf-8"))  # 写入读取的网页源代码,生成html文件
print("over")

二、web请求过程剖析

  1. 服务器渲染:在服务器那边直接把数据和html整合在一起,统一返回给浏览器。
    特点:在页面源代码中能看到数据
  2. 客户端渲染:
    第一次请求只返回一个html框架,第二次请求获取数据,进行数据展示
    特点:在页面源代码中,看不到数据
  3. 注:要熟练使用浏览器抓包工具(F12)

三、Http协议(超文本传输协议)

协议:为了沟通订制的规则,比如上下位机,不同的电脑端
Http协议把一条消息分为三大块(请求-3块,响应-3块)
请求:
请求行 -> 请求方式(get/post)请求url地址协议
请求头 -> 放一些服务器要使用的附加信息
请求体 -> 一般放一些请求参数
响应:
状态行 -> 协议 状态码
响应头 -> 放一些客户端要使用的一些附加信息
响应体 -> 服务器返回的真正客户端要用的内容(json\html)等
请求头中最常见的一些重要内容(爬虫需要):
User-Agent:请求载体的身份标识(用啥发送的请求)
Referer:防盗链(这个请求从哪里来的)
cookie:本地字符串数据信息(用户登录信息、反爬的token)
响应头中一些重要内容:
cookie:本地字符串信息(用户登录信息、反爬的token)
各种神奇的字符串
请求方式:
GET:显式提交
POST:隐式提交


文章作者: 乔彬
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 乔彬 !
  目录