3427 words

17 minutes

我对Ai Agent的理解

2026-04-09

AI

/

Agent

/

LLM

一开始看到 AI Agent 这个词的时候，我是有点懵的。

因为网上很多介绍都很“厉害”：

能自动完成任务
能自己思考
能调用工具
能像助手一样帮你做事

这些话听起来都对，但对一个新手来说，问题还是没解决：

它到底是什么？和普通 AI 有什么区别？又为什么突然这么火？

我后来查了不少资料，慢慢发现，AI Agent 其实没有那么玄乎。

如果用一个新手也能理解的说法：

AI Agent 就是“比普通聊天 AI 更进一步”的系统，它不只是会回答问题，还会为了完成目标，自己分步骤去做事。

所以这篇文章，我不打算写得太专业，而是想站在一个新手的角度，把我理解 AI Agent 的过程写下来。

一、先别急着背定义，先理解它和普通 AI 的区别#

很多人第一次接触 AI，通常是从聊天开始的。

比如你会问：

帮我写一段文案
帮我翻译一句英文
帮我解释一个概念
帮我润色一段文字

这类 AI 更像一个“会聊天、会写字、会解释问题的人”。

你问一句，它答一句。

这已经很强了，但它大多数时候只停留在“回答”这一步。

而 AI Agent 不一样。

AI Agent 更像一个“接任务的人”。

比如你跟它说：

帮我查一下这个技术怎么用，再整理成一份笔记
帮我看看这个项目哪里有 bug
帮我把这个文件内容改一下
帮我打开网页，查一下信息，再总结出来

这时候它做的就不只是“回答”，而是：

先理解你的目标
再想清楚要怎么做
如果需要，就去调用工具
根据结果继续下一步
最后把任务做完

所以如果非要我用一句最简单的话总结：

普通 AI 偏向“回答问题”，AI Agent 偏向“完成任务”。

二、我现在怎么理解 AI Agent#

我现在会把 AI Agent 理解成下面这个公式：

AI Agent = 大模型 + 工具 + 记忆 + 规划 + 执行

这个公式不一定学术，但我觉得对新手很好懂。

我们可以一个个拆开看。

1. 大模型：相当于脑子#

AI Agent 首先得有“脑子”，这个脑子通常就是 LLM（大语言模型）。

比如：

GPT
Claude
Gemini
Qwen
DeepSeek
Llama

它们的作用是什么？

简单说就是：

听懂你在说什么
理解你的需求
生成自然语言
做一些分析和判断

所以大模型就像 Agent 的“大脑”。

但是要注意：

有大模型，不代表就是 Agent。

因为大模型只是“会想、会说”，但 Agent 还要“会做”。

这就像一个人很聪明，不代表他就一定能把事情办完。
真正办事，还得有工具、有步骤、有记忆。

2. 工具：相当于手和脚#

这是我觉得最关键的一点。

因为大模型本身再聪明，它也主要是在“生成文字”。

可现实任务很多不是靠说就能完成的。

比如：

查实时天气
搜网页
读文件
写文件
执行命令
调接口
操作浏览器

这些都需要借助工具。

所以你可以把工具理解成 Agent 的“手和脚”。

举个很简单的例子：

如果你问普通 AI：

帮我看看我电脑里某个文件写了什么

普通聊天 AI 其实做不到，因为它根本接触不到你的文件。

但如果是 Agent，它可以：

调用“读文件”的工具
读取文件内容
再根据文件内容给你分析

再比如你让它帮你改代码，它就可能会：

先读取文件
再修改内容
再写回文件
最后总结改了什么

这就是 Agent 真正开始“做事”的地方。

所以从新手角度来说，我觉得可以这样记：

大模型负责想，工具负责做。

3. 记忆：相当于不会一转头就忘记#

如果一个 AI 每次说完话就把前面的内容忘了，那它其实很难持续做任务。

所以 Agent 往往需要“记忆”。

这个记忆不用理解得太复杂，可以先分成三种：

短期记忆#

就是当前对话里它记得的内容。

比如：

你刚刚提了什么需求
前面已经做到了哪一步
它上一步拿到了什么结果

长期记忆#

就是把一些重要信息留下来，之后还能继续用。

比如：

你平时喜欢什么风格
你常用什么技术
你有哪些固定偏好

工作记忆#

就是任务进行过程中记下来的中间结果。

比如：

已经看过哪些文件
哪个命令执行过了
哪一部分还没完成

我觉得把它理解成“便签本”就行。

没有记忆，Agent 就像一个不停失忆的人。
有了记忆，它才能把事情接着做下去。

4. 规划：相当于先想好步骤再动手#

很多任务不是一句话就能搞定的。

比如你让它“帮我优化一个页面”，它不可能直接就把所有事情一次做完。

它通常得先拆分一下：

先看页面结构
再分析哪里有问题
再决定要改什么
再去改代码
最后检查效果

这个过程就是规划。

说白了，规划就是：

把一个大任务，拆成几个小步骤。

这件事为什么重要？

因为如果不拆步骤，AI 很容易乱来：

一会儿做这个
一会儿做那个
中间跳过关键步骤
最后结果不完整

所以一个靠谱的 Agent，通常都不是一上来就乱输出，而是会先想：

我现在要做什么？
下一步要做什么？
先拿什么信息？
最后怎么验证？

从新手角度看，这一点很好理解：

Agent 像一个会先列待办清单，再开始做事的 AI。

5. 执行：相当于不只是想，还真的去做#

有了脑子、有了工具、有了步骤，接下来才是执行。

执行就是把前面想好的事情真正做出来。

比如一个 Agent 接到“帮我整理一份资料”的任务，可能会这样做：

搜索相关内容
把资料读一遍
提取重点
按结构整理出来
输出成一份总结

再比如它接到“帮我改代码”的任务，可能会这样做：

找到相关文件
读取内容
修改代码
保存文件
检查有没有问题

所以执行这一步，才真正体现了 Agent 和普通 AI 的差别。

因为普通 AI 通常停留在“告诉你怎么做”，
而 Agent 更接近“它帮你做一部分”。

三、AI Agent 涉及的核心知识点，我是怎么理解的#

上面讲的是整体感觉。
如果再往下拆，AI Agent 背后常见的知识点，我现在会这样理解。

1. LLM（大语言模型）#

这个不用说太复杂，先记住一句话就行：

LLM 是 Agent 的大脑。

它负责理解、推理、生成内容。

没有它，Agent 就像没有脑子，做不了复杂判断。

2. Prompt（提示词）#

Prompt 这个词听起来有点专业，其实很好理解。

你可以把 Prompt 理解成：

你给 AI 的任务说明书。

比如你只是说：

帮我写篇文章

那 AI 可能就随便写。

但如果你说：

帮我写一篇给新手看的文章
语言要通俗
不要太多术语
要有例子
最后要有总结

它写出来的内容就会更符合你的预期。

所以 Prompt 说白了就是：

你说得越清楚，AI 越容易做对。

对于 Agent 来说，Prompt 很重要，因为它不只是回答，还要行动。

3. Tool Calling（工具调用）#

这个是 Agent 的核心能力之一。

简单理解就是：

AI 知道什么时候该借助外部工具来完成任务。

比如：

要查实时数据，就调接口
要看网页内容，就打开浏览器
要改文件，就调用读写文件工具
要执行程序，就调用命令行工具

没有工具调用，AI 再聪明也只能“纸上谈兵”。

4. Memory（记忆）#

前面说过，记忆就是让 Agent 不会一直忘事。

你可以把它理解成：

它记得你刚说了什么
它记得刚做了什么
它记得下一步还要做什么

如果没有记忆，多步任务基本很难做稳。

5. Planning（规划）#

规划就是“先拆任务，再行动”。

这点在复杂任务里特别重要。

因为真实世界里的任务，往往都不是一步完成的，而是：

先理解
再找信息
再处理
再检查

如果 AI 不会拆步骤，它做事就容易乱。

6. RAG（检索增强生成）#

这个词第一次看到会有点吓人，但其实你可以先把它理解成一句话：

先查资料，再回答问题。

为什么需要它？

因为大模型虽然厉害，但也不是全知全能的：

它可能不知道最新内容
它可能不知道你的私有资料
它有时候会胡说

所以 RAG 的作用就是先给它“喂资料”。

比如：

从知识库里找资料
从项目文档里找信息
从代码库里找相关内容

然后再让它根据这些资料回答。

从新手角度看，RAG 的意义很简单：

让 AI 少瞎猜，多参考真实内容。

7. Workflow（工作流）#

工作流就是“固定做事顺序”。

比如一个问答型 Agent 的流程可以是：

接收问题
去知识库检索
拿到资料
交给模型整理
输出答案

一个代码 Agent 的流程可以是：

理解需求
搜索相关文件
读取文件
修改内容
检查结果

你可以把工作流理解成：

给 AI 画好路线，让它别乱跑。

这样虽然少了一点“自由发挥”，但会更稳定。

8. Reflection（反思）#

反思就是做完一步之后，回头检查一下。

比如：

我理解对了吗？
我改的地方有没有问题？
输出格式对不对？
要不要重新试一次？

人会复盘，AI 其实也需要这种机制。

这会让 Agent 更稳一点，不至于一错到底。

9. Multi-Agent（多智能体）#

这个可以理解成“团队合作”。

有时候一个 Agent 不够用，就会拆成多个角色：

一个负责规划
一个负责查资料
一个负责写内容
一个负责检查结果

听起来很高级，但新手可以先不用把它想得太复杂。

你就把它理解成：

一个 AI 打工团队，而不是一个 AI 单独干活。

10. Agent Framework（开发框架）#

如果要自己做 Agent，通常会接触一些框架，比如：

LangChain
LangGraph
AutoGen
CrewAI
LlamaIndex

这些框架的作用，不是“让 AI 变聪明”，而是帮开发者更方便地把：

模型
工具
记忆
工作流
多 Agent

这些东西组合起来。

所以框架更像“搭积木的工具箱”。

11. Evaluation（评估）#

这一点很多新手容易忽略。

AI 看起来回答得头头是道，不代表它真的靠谱。

所以还需要评估它：

有没有完成任务
回答对不对
调工具有没有出错
会不会经常跑偏
成本高不高
速度够不够快

说白了：

评估就是看看这个 Agent 到底能不能真正拿来用。

12. Guardrails（约束与安全）#

如果 Agent 只能聊天，问题还不大。
但如果它能：

改文件
调接口
发请求
操作数据库

那就必须加限制。

比如：

哪些工具能用
哪些操作不能直接执行
危险操作要不要人工确认
敏感信息要不要过滤

这一层的意义很简单：

让 AI 帮忙做事，但不能让它乱做事。

四、我是一个新手，我怎么学 AI Agent的呢#

第一步：先搞懂大模型是什么#

先不要急着研究 Agent。

先理解：

大模型能做什么
不能做什么
为什么有时候很聪明，有时候又会胡说

这一步很重要，因为 Agent 的基础就是大模型。

第二步：学会怎么和 AI 说清楚需求#

也就是 Prompt。

你要学会：

怎么描述任务
怎么加限制
怎么让它输出得更稳定

这一步其实很实用，平时用 AI 也马上能用上。

第三步：理解工具调用#

明白 AI 为什么需要工具，工具是怎么帮它完成任务的。

只要你理解了这一点，你就会真正明白：

Agent 不是“更会说”，而是“更会做”。

第四步：理解 RAG 和记忆#

这是让 Agent 更像真实助手的重要部分。

一个负责“查资料”，一个负责“别忘事”。

第五步：理解工作流和规划#

这里会让你明白，为什么真实的 Agent 系统不是乱跑的，而是有流程、有步骤的。

第六步：最后再看框架、评估和安全#

这些更偏工程化，但如果以后你真的想做项目，这部分一定绕不过去。

我对Ai Agent的理解

https://yuanran32.github.io/posts/我对ai-agent的理解/

Author

Lorem Ipsum

Published at

2026-04-09

License

CC BY-NC-SA 4.0

Simple Guides for Fuwari

1

一、先别急着背定义，先理解它和普通 AI 的区别

三、AI Agent 涉及的核心知识点，我是怎么理解的

1. LLM（大语言模型）

2. Prompt（提示词）

3. Tool Calling（工具调用）

10. Agent Framework（开发框架）

11. Evaluation（评估）

12. Guardrails（约束与安全）

4

四、我是一个新手，我怎么学 AI Agent的呢