爬虫学习 | Blog

数据分析

发布日期: 2023-03-23

更新日期: 2023-03-23

文章字数: 479

阅读时长: 1 分

一、小试牛刀

# 用程序模拟浏览器，输入一个网址，从该网址获取资源
from urllib.request import urlopen

url= "http://www.baidu.com"
resp=urlopen(url)
print(resp.read().decode("utf-8"))         # 读取url并解码
with open("mybaidu.html",mode="w",encoding="utf-8") as f:
    f.write(resp.read().decode("utf-8"))  # 写入读取的网页源代码,生成html文件
print("over")

二、web请求过程剖析

服务器渲染：在服务器那边直接把数据和html整合在一起，统一返回给浏览器。
特点：在页面源代码中能看到数据
客户端渲染：
第一次请求只返回一个html框架，第二次请求获取数据，进行数据展示
特点：在页面源代码中，看不到数据
注：要熟练使用浏览器抓包工具（F12）

三、Http协议（超文本传输协议）

协议：为了沟通订制的规则，比如上下位机，不同的电脑端
Http协议把一条消息分为三大块（请求-3块，响应-3块）
请求：
请求行 -> 请求方式（get/post）请求url地址协议
请求头 -> 放一些服务器要使用的附加信息
请求体 -> 一般放一些请求参数
响应：
状态行 -> 协议状态码
响应头 -> 放一些客户端要使用的一些附加信息
响应体 -> 服务器返回的真正客户端要用的内容（json\html)等
请求头中最常见的一些重要内容（爬虫需要）：
User-Agent:请求载体的身份标识（用啥发送的请求）
Referer:防盗链（这个请求从哪里来的）
cookie：本地字符串数据信息（用户登录信息、反爬的token）
响应头中一些重要内容：
cookie：本地字符串信息（用户登录信息、反爬的token）
各种神奇的字符串
请求方式：
GET：显式提交
POST:隐式提交

乔彬

https://qiaobin1.github.io/2023/03/23/pa-chong-xue-xi/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源乔彬 !

数据分析数据挖掘

数据分析-excel

2023-03-23 数据分析

数据分析数据挖掘

绘图模板1（matplotlib）

2023-03-23 数据分析

数据分析数据挖掘