AI · 工具 · 入门

从 ChatGPT 到 Agent
一份给非开发者的 AI 工具科普

搞清楚"龙虾"是什么、OpenClaw / Claude Code / Cursor / WorkBuddy 各自是什么、为什么现在 AI 能直接帮你改文件——一次性讲明白。
📅 2026-05-12 ⏱️ 约 15 分钟 🦞 人话版 · v4
目 录
  1. 第 1 章AI 的三次质变ChatGPT → Tool Use → Agent
  2. 第 2 章"龙虾"到底是什么含 OpenClaw 撞名澄清
  3. 第 3 章三个必须懂的核心概念Agent Loop / Tool Use / MCP
  4. 第 4 章关键技术名词扫盲CLI / IDE / VSCode / Fork
  5. 第 5 章三者的关系含 vibe coding 真相
  6. 第 6 章判断框架四问定位法
  7. 第 7 章WorkBuddy 在地图里的位置
  8. 总结一句话串起整套体系
01
PART 1 · 进化

AI 的三次"质变"

从 2022 到 2026,AI 工具走了三段路:从"答题机",到"会调工具",到"会自己干活"。

1.1阶段一:纯对话 AI(2022)

2022 年底 ChatGPT 出来时,它能做的只有一件事——你给文字,它给文字。它不能上网、读文件、跑代码、改你电脑上的东西。

你:帮我写一个 Python 脚本算销售额
ChatGPT:好的,[给你一段代码文本]
你:(自己复制 → 自己建文件 → 自己粘贴 → 自己运行)

所有动作都得你亲自干,AI 只负责说话——像一个"很有经验的顾问",告诉你怎么做,但不替你做。

1.2阶段二:工具调用(Tool Use,2023)

OpenAI 和 Anthropic 几乎同时上了一个新能力:给 AI 一份"工具清单",AI 可以主动要求调用,由系统帮它执行。

你:帮我读一下 report.txt 里的内容
AI:我想调用 read_file("report.txt")    ← AI 主动提出
系统:[执行调用,读到"销售额 100 万..."]
AI:文件内容是销售额 100 万...           ← 拿到结果继续回答

关键突破:AI 第一次能影响外部世界——但一次只能调一个工具,复杂任务还是干不了。

1.3阶段三:Agent 智能体(2024-2026)

真正的复杂任务需要连续操作 N 步。比如让 AI:"把项目里所有 TODO 改成 DONE"——它要找文件、读、改、再找下一个,循环到全部完成。这种 "AI 自己决定下一步 → 执行 → 看结果 → 再决定下一步" 的循环,叫 Agent(智能体)模式,俗称 Agentic Loop

三阶段并排对比

STAGE 01
纯对话
2022 · 早期 ChatGPT
你给文字,它给文字。所有事还得你亲自做
STAGE 02
工具调用
2023 · GPT-4 / Claude
AI 第一次能影响外部世界,但一次只能调一个工具。
STAGE 03
Agent
2024-2026 · OpenClaw · Claude Code · WorkBuddy
说目标,AI 自己拆步骤、循环、纠错、跑完整件事

Agentic Loop 标准流程(5 步循环)

1
START
用户说一个目标
2
THINK
AI 想:下一步做什么
3
ACT
AI 调用工具
(读 / 写 / 跑命令)
DONE
完成 → 汇报给用户
5
CHECK
AI 看结果:完成了吗?
4
EXECUTE
系统执行,返回结果
没完成 回到第 2 步,AI 自动决定下一步动作

三个阶段对比

阶段代表产品你要做的AI 做的
纯对话早期 ChatGPT看答案,亲自动手说话
工具调用GPT-4 带插件AI 帮 1-2 步,复杂任务还得自己做帮你查/算
AgentOpenClaw、Claude Code、WorkBuddy说目标,AI 自己跑完替你执行整个任务
CORE TAKEAWAY
从 Agent 这一步开始,你从"执行者"变成了"监工 / 决策者"。AI 不再只是给建议——它真的替你干完整件事。
02
PART 2 · 龙虾

"龙虾"到底是什么

起源于一只开源项目的 logo,演化成整个 AI Agent 生态的代名词。

2.1名字的由来

"龙虾"这个梗,起源于开源 AI Agent 项目 OpenClaw 的红色龙虾 logo。
后来扩展成对整个 AI Agent 生态的代称——不限于某一家公司、某一款产品。

广义龙虾 = OpenClaw 引发的、所有"AI + Agent + 能干活"类产品的统称。

🦞
"龙虾"是怎么来的?一次讲清楚
  • 最早是个 logo:奥地利开发者 Peter Steinberger 做了个开源 AI Agent 项目(最早叫 Clawdbot,后来叫 Moltbot,现在叫 OpenClaw),给它配了一只红色龙虾作为吉祥物
  • logo 火了,名字就传开了:那只 🦞 太有辨识度,国内社群直接用"龙虾"当项目代称
  • 再后来变成生态名:一批厂商推出受 OpenClaw 启发的 Agent 产品(如腾讯 WorkBuddy),国内社群统称为"龙虾家族"
  • 所以严格说:"OpenClaw" 和 "龙虾" 指的是同一件事的不同叫法(前者是项目正式名,后者是民间昵称)
说法实际指什么
OpenClaw独立开源 AI Agent 项目(Peter Steinberger 创建 / MIT 协议 / openclaw.ai)
龙虾 / 大龙虾OpenClaw 的民间昵称(来自项目的红色龙虾 logo)
龙虾家族 / 龙虾生态受 OpenClaw 启发/衍生的一系列 AI Agent 产品(如腾讯 WorkBuddy 等)的统称
🦞 logoOpenClaw 项目的官方吉祥物
正式场合(写报告、对客户)建议用项目正式名 "OpenClaw""AI Agent 工具";"龙虾 / 龙虾家族"是社群昵称,朋友圈、群聊里用就行。

2.2龙虾家族图谱

🦞 龙虾大家族
🛠 纯编程向
CLI 类
  • OpenClaw(鼻祖)
  • Claude Code
  • CodeBuddy CLI
IDE 类
  • Cursor / Windsurf
  • TRAE / 通义灵码
  • CodeBuddy 插件
📊 办公向
  • WorkBuddy 桌面版
  • Claude Desktop
  • 豆包桌面版
面向非开发者,聊天 + 干活一体
💬 IM/聊天向
  • 飞书 AI
  • 企微 AI
  • 钉钉 AI
嵌在 IM 里,不动本地文件
共同的底层:Agent Loop + Tool Use + MCP 协议

2.3主要厂商和产品

阵营代表产品形态备注
开源 / 个人OpenClawCLI / Agent 框架龙虾鼻祖,MIT 协议,社区驱动
Anthropic 原生Claude CodeCLI纯编程,能力强,要梯子
Anthropic 原生Claude Desktop桌面 App通过 MCP 接本地
独立创业Cursor / Windsurf独立 IDEVSCode fork,最火
开源社区Cline / Roo CodeVSCode 插件开源免费党首选
腾讯CodeBuddyCLI / 插件国内直连,接腾讯生态
腾讯WorkBuddy桌面 App面向非开发者办公
字节TRAE独立 IDEVSCode fork,免费
字节MarsCode插件 / 网页 IDE偏教育和云端开发
阿里通义灵码插件 / 独立版程序员向

2.4形态分类(决定它能干什么)

形态能否操作本地文件例子
CLI 命令行✅ 能OpenClaw、Claude Code、CodeBuddy CLI
独立 IDE✅ 能Cursor、TRAE、Windsurf
IDE 插件✅ 能通义灵码、Cline
桌面 App✅ 能WorkBuddy、Claude Desktop、豆包桌面版
IM 内插件❌ 不能飞书 AI、企微 AI、钉钉 AI
网页 / 小程序❌ 不能千问网页版、扣子、夸克 AI
RULE OF THUMB
能不能装到你电脑上 → 决定能不能操作本地文件 → 决定能不能真正帮你"干活"。
03
PART 3 · 核心概念

三个必须懂的核心概念

看懂任何龙虾产品的本质,掌握这三个就够。

3.1Agent Loop(智能体循环)

定义:AI 自主决定下一步 → 执行 → 看结果 → 再决定下一步,直到任务完成。

意义:让 AI 从"答题机"变成"会干活的助手"。

怎么识别一个产品有没有 Agent Loop(三问)

能否拆步骤
说一个复杂目标,
它能自己拆成 N 步跑吗?
能否自动纠错
中间执行错了它能
自己改方案再来一次吗?
能否展示进度
能看到"我现在在干什么"
的实时步骤吗?

三个都满足 → 真 Agent;只是单次问答 → 还停在"工具调用"阶段

3.2Tool Use(工具调用)

定义:AI 模型本身的能力——按统一格式说出"我要调用某个工具",由外层程序去执行。

这是 Agent 的"基础协议",所有龙虾都靠它运转

工具的两个来源

AI 模型(脑子)
Claude / GPT / 豆包 / 通义
外层产品(WorkBuddy / Cursor / …)
🟢 BUILT-IN · 内置工具
产品自带,写死在代码里
Read · Write · Edit · Bash · Grep · Glob · WebFetch · preview_url · …
代码在 WorkBuddy 自己里
🟣 MCP · 协议外接
外部服务通过 MCP 协议接入
GitHub · Notion · 腾讯文档 · 飞书 · 企微 · iWiki · TAPD · …
代码在外部 MCP Server 里
工具类型代码在哪例子
内置工具产品本身代码里Read、Write、Edit、Bash、Grep
MCP 工具外部 MCP Server 里GitHub MCP、腾讯文档 MCP、飞书 MCP
常见误解:很多人以为"AI 调工具都是通过 MCP"——错。Tool Use 是基础协议,永远在用;MCP 只是"工具从哪来"的一种来源。

3.3MCP 协议(Model Context Protocol)

定义:Anthropic 2024 年开源的标准,让"AI 产品"和"外部服务"用统一格式对话——类似 AI 界的 USB-C 接口

没有 MCP 之前 vs 有 MCP 之后

BEFORE · 痛苦
每家 AI 都要自己写一遍
10 家 AI × 100 个服务
= 1000 次重复造轮子
AFTER · 解放
客户端 + Server 各写一次
10 + 100 次
= 110 次通杀全生态

MCP 架构图(中心总线 + 多服务)

OpenClaw Claude Code Cursor WorkBuddy TRAE Claude Desktop
MCP 协议 · 统一总线
SERVER
📁 文件系统
SERVER
🐙 GitHub
SERVER
📝 Notion
SERVER
📄 腾讯文档
SERVER
💬 飞书
SERVER
🗄 数据库
STRATEGIC INSIGHT
未来 2-3 年,不支持 MCP 的 AI 产品基本没机会。谁能接得上生态里几千个 MCP Server,谁就有更高天花板。
现状:OpenAI、Google、Anthropic、腾讯、字节都已支持。
04
PART 4 · 名词扫盲

关键技术名词扫盲

这几个词看不懂,后面就听不下去。
4.1CLI
命令行界面

黑框框,敲英文命令,电脑执行后打印结果。

$ ls
document.txt  photo.jpg
$ python calc.py
结果: 42

OpenClaw、Claude Code 都是典型的 CLI Agent 工具。非程序员看到黑框框就不敢动——这是它的天然门槛。

4.2IDE
集成开发环境

程序员的"超级 Word":把"写代码 + 跑代码 + 调试 + 版本管理"集成在一个窗口。

代表:VSCode(最火,免费)、JetBrains 全家桶(IntelliJ/PyCharm,专业但收费)、Visual Studio。

4.3VSCode
微软的开源 IDE

微软 2015 年出的免费 + 开源 + 跨平台的轻量 IDE,全球份额 70%+

关键特性

  • MIT 开源协议,谁都能 fork 来改名卖
  • 架构干净,专门设计成"给人拿来改"

这就是为什么所有 AI IDE 都 fork 它——自己写一个 IDE 要 5-10 年、上百人、上亿预算,fork 只要几个月。

4.4Fork
分叉别人代码

把别人开源的代码复制一份,改成自己的产品。

代表性 fork:Cursor、Windsurf、TRAE、通义灵码独立版 → 全是 VSCode fork。这些产品的编辑器内核都是 VSCode,差异在 AI 集成、UI 主题、商业模式上。

4.5混淆词
编辑器 vs 编译器(别混淆)
干啥的例子
编辑器写和改代码文本VSCode、Sublime
编译器把代码翻译成机器指令GCC、javac
解释器一边读一边执行Python、Node.js
IDE编辑器 + 编译器调用 + 调试器 + 终端 + 一堆插件的集成VSCode + 插件 ≈ IDE
05
PART 5 · 关系

"龙虾" vs "VSCode 衍生品" vs "WorkBuddy"

理解到这里,可以画出整个龙虾世界的终极架构图。

5.1两条产品路线

🚗 ROUTE A · 副驾驶
AI 当助手 · 人是司机
Cursor / Windsurf
TRAE / 通义灵码
IDE 插件类(Cline / Roo / …)
必须有 IDE 内核(VSCode)
AI 通过 IDE UI 辅助你
🚖 ROUTE B · 自动驾驶
AI 当主力 · 人是乘客
OpenClaw(CLI · 鼻祖)
Claude Code(CLI)
WorkBuddy(桌面)
Claude Desktop
不需要 IDE,直接操作文件
AI 用 Tool Use 自己干
共同的底层技术栈:Agent Loop + Tool Use + MCP

5.2比喻:副驾驶 vs 自动驾驶

🚗
Cursor / TRAE = 带 AI 副驾驶的车
你是司机,AI 帮你打方向、提醒变道。
必须有方向盘、仪表盘、座位(= IDE 的所有 UI)
🚖
WorkBuddy / OpenClaw / Claude Code = 自动驾驶
你是乘客,AI 是司机,你只输入"去机场"。
只要目的地输入框就行(= 聊天框)

5.3vibe coding 时到底发生了什么(重要澄清)

很多人以为:"我在 WorkBuddy 里写代码 → WorkBuddy 调用 IDE 帮我写"——错!真相是 WorkBuddy 直接对你的文件动手,根本不需要 IDE。
你(WorkBuddy 聊天框):把首页标题改成蓝色
        
WorkBuddy 内部 AI:
  调 Glob → 找到首页文件
  调 Read → 读出代码
  调 Edit → 把 color: black 改成 color: blue
  调 Bash → 跑 npm run build
        
你硬盘上的文件被改了

整个过程没有任何 IDE 参与。因为 IDE 的所有 UI(语法高亮、自动补全、可视化 diff)都是为"人写代码"服务的——AI 写代码不需要这些,它直接读纯文本、改纯文本就行。

CONCLUSION
你 vibe coding 时不需要打开 VSCode,也不需要懂 IDE。
WorkBuddy = 聊天界面 + Agent Loop + Tool Use + MCP。
06
PART 6 · 判断框架

给非开发者的判断框架

以后看到任何新出的 AI 工具,问 4 个问题就够。

6.1四问定位法

1它是 fork 什么内核?还是从零写?
VSCode fork → 程序员向 IDE 类;自研 CLI → 极客向命令行;自研聊天 App → 大众向
2它的 Agent 能力怎么样?工具调用多成熟?
能跑长任务自己纠错 → 真 Agent;只能单次问答 → 还停在 Tool Use;啥都不能干 → 普通 ChatGPT 平替
3它支持 MCP 吗?生态开放还是封闭?
支持 → 能扩展到任何外部系统;不支持 → 能力被锁死在产品内置
4它在哪个场景差异化?
编程 / 办公 / IM / 都做(早晚会聚焦到一个)

6.2给非开发者的产品选择建议

你的场景推荐工具
写代码(哪怕是新手)Cursor(国外)/ TRAE(国内免费)
办公场景:写汇报、做 PPT、跑数据WorkBuddy
临时小问题,不想装东西千问 / 豆包 / DeepSeek 网页版
团队协作:群聊里 @AI 帮忙飞书 AI、企微 AI
想自己玩 Claude 但又不会装Claude Desktop(要梯子)
07
PART 7 · WorkBuddy

WorkBuddy 在这张地图里的位置

国内目前少见地同时满足 5 个条件的产品。
WorkBuddy = 桌面 App + Agent Loop + Tool Use + 内置工具 + MCP 连接器 + 面向非开发者办公场景
🖥️
能装在你电脑上
能操作本地文件
🔁
完整 Agent Loop
AI 能跑长任务
🔌
支持 MCP
接腾讯文档/企微/iWiki/TAPD
💬
不需要懂代码
聊天就能干活
🇨🇳
国内直连
不用梯子
🎯
最稀缺的组合
五件套国内少见同时满足

·它和谁比有什么不同

对比对象WorkBuddy 的差异
vs OpenClaw更适合非开发者的 GUI 体验 + 国内直连;OpenClaw 是开源 CLI / 框架,自由度更高但门槛高
vs Claude Code多了非编程办公能力 + IM 生态 + 国内直连;少了纯编程深度
vs 通义灵码 / TRAE覆盖了他们不碰的"非开发者办公"场景
vs 飞书 AI / 企微 AI能操作本地文件、跑 Excel/Python;他们只能在 IM 里玩
vs 豆包桌面版是 Agent 化工作流;豆包是聊天 + 屏幕操作(不同范式)

一句话总结整套体系

AI 工具的进化分三步:聊天(ChatGPT) → 调工具(Tool Use) → 自主跑(Agent)
当前最先进的形态叫"龙虾"——起源于开源项目 OpenClaw,泛指所有 Agent 类 AI 产品(OpenClaw、Claude Code、Cursor、WorkBuddy 等)。
底层都是同一套技术栈:Agent Loop + Tool Use + MCP
形态分两条路线:AI 当助手(IDE 类)和 AI 当主力(CLI / 桌面 App)。
WorkBuddy 走的是后者——让普通人也能享受 Agent 能力。