Administrator
发布于 2026-04-28 / 3 阅读
0
0

Playwright(爬虫) 原理(超级通俗版,一听就懂)

我用最简单、最直观的方式给你讲清楚,不搞玄学、不堆术语。

一、Playwright 本质是什么?

它 = 一个能 “遥控真实浏览器” 的自动化工具

它不是爬虫,不是模拟器,

它是真真正正启动一个 Chrome / Firefox / Safari 浏览器,

然后通过管道协议去遥控它。

二、核心原理(一句话)

代码 → 发指令 → Chrome 浏览器执行 → 返回结果

你写的 Python/JS 代码

不直接访问网页

而是给浏览器发命令:

打开网页

点按钮

输账号

读内容

截图

浏览器真的去干,干完把结果返回给代码。

三、它和传统爬虫(requests)最大区别

传统爬虫(requests)

直接发 HTTP 请求 → 拿 HTML

看不见页面

不执行 JS

服务器一眼就知道:这是程序,不是人

Playwright

启动真浏览器 → 真人行为 → 拿数据

执行所有 JS

加载所有资源

有 cookie、session、指纹

服务器无法区分是人还是程序

四、底层技术原理(超清晰)

1. 双进程架构

plaintext

你的代码(Python/JS)

↓ (WebSocket 通信)

浏览器内核(Chromium)

上层:你的脚本(发指令)

下层:真实浏览器(执行)

中间用 WebSocket 长连接 通信

2. 浏览器自带的调试协议:CDP

Chrome 自带一个官方遥控协议叫:

CDP (Chrome DevTools Protocol)

Playwright 就是用 CDP 协议 做到:

打开页面

点击元素

输入文字

监听网络请求

读取页面内容

执行 JS

这是浏览器官方支持的,不是破解。

3. 自动等待机制(最牛的地方)

Playwright 不用 time.sleep(1)

它内部会自动等:

页面加载完

JS 执行完

元素出现

网络空闲

这就是为什么它比任何爬虫都稳。

五、为什么它能爬所有网站?

因为:

它就是一个真正的人类浏览器,只是被代码遥控了。

有正确的请求头

有正确的 SSL 指纹

有正确的 JS 环境

能过验证码

能登录

能点按钮

网站根本无法识别这是程序。

六、最简单总结(你记这 3 句)

Playwright = 代码遥控真实 Chrome 浏览器

通信靠浏览器官方协议 CDP

因为是真浏览器,所以能爬任何网站、不会被轻易拦截

七、它和 AI Agent / PageAgent 的关系?

所有 AI 网页智能体,底层 100% 都是 Playwright

plaintext

AI Agent(大脑)

Playwright(手+眼睛)

操控浏览器


评论