大模型：从“会做”到“做完”的工程鸿沟

虽然这个区分听起来像废话，但我认为它是理解当下AI能力的一把钥匙。最近我在用几个AI帮我处理一些重复性任务的时候，发现一个有意思的现象：模型明明"会"做某件事，比如它能写出语法正确的Python、能解释清楚一个算法，但！真要让它帮我跑通一个涉及三个API的小流程，就开始掉链子。问题不在于它"不会"，而在于"会"和"能做完"之间，隔着一整层东西。

这层东西，就是"Skills"，这个词在AI的语境下有两层含义，搞混了容易产生错误期待。

第一层：模型"会什么"

第一层Skills是模型通过训练涌现出的内在能力。推理、编程、翻译、写作，这些能力不是被人类一条条"写进去"的，而是模型在吃了足够多数据、参数量足够大之后，自己"长出来"的。这个过程有点反直觉：模型做的事情本质上只是"预测下一个词"，但当它在海量代码、数学教材、对话语料上做了足够多的预测练习后，某些逻辑模式就被它内化了。

Researcher管这种现象叫"涌现能力",就是当模型规模过了某个临界点，原本做不到的事突然就能做了。2022年Wei的论文专门讨论过这个现象。我觉得这有点像一个人背了足够多的棋谱之后，突然悟出了某种"棋感"，不再只是机械套招了。（我早期背英语单词的时候也有类似体验：背到一定量后，突然发现自己能猜出不认识的单词意思了。）

2023年Schaeffer发了一篇论文，标题叫《大语言模型的涌现能力是海市蜃楼吗？》。他们的论点是：所谓"突然涌现"，可能部分是评估指标的伪影。如果你用的是精确匹配这种非线性指标，模型能力的增长会被压缩成一条阶跃函数，看起来像突然开窍，其实能力一直在平滑增长，只是你的尺子不够细。这个可能性我没法排除，但即便如此，模型确实在做一些训练数据里没有明确教过的事情，这一点我认为是可以站住脚的。

第二层：模型"怎么做"

第二层Skills是把模型的能力封装成可执行的模块。这一层不是在讨论模型"会不会"，而是在讨论"能不能可靠地做完一件事"。

区别在哪？假设你让模型帮你安排一次出差：查航班、选酒店、把会议写进日历。模型可能"会"查航班（知道该调用什么API），"会"选酒店（能给出合理建议），"会"写日历（懂日历格式）。但这三步要串起来，就需要一套额外的东西：谁来决定先做哪步？参数格式对不对？API返回出错怎么办？时区不一致怎么处理？

这就是"外在技能层"在做的事。它包括几个关键组件：规划器负责把目标拆成子任务，执行器负责真正调用API，校验器负责检查返回结果是否合理。

这个分层让我意识到一件事：当我认为"AI能做X"的时候，其实在混用两个不同的"能"。一个是"具备做X的能力"，另一个是"能可靠地把X做完"。前者是模型的事，后者是系统的事。

为什么这个区分重要

当我理解这两层的区别，直接影响了我对AI产品的预期管理。

如果我只看到第一层，会倾向于认为"模型越强就越能用"，然后困惑于为什么GPT-4明明比GPT-3聪明那么多，帮我干活的时候还是经常掉链子。原因往往不在智力，而在于第二层的工程没做好：工具文档过时了、参数校验没做、错误处理是空白。

反过来，如果我只看到第二层，会倾向于认为"只要流程够细就能解决一切"，然后困惑于为什么同样的流程在这个模型上跑得通、在那个模型上就不行。原因在于底层能力不够——第一层撑不住。

把钱花在哪边，取决于你的瓶颈在哪边。

真正的工程挑战

事实上，外部看不清现在各家AI公司在这两层上分别投入了多少资源。但从公开信息能观察到的是，工程侧的挑战正在变得更明显。

第一个挑战是版本漂移。模型记住的是它训练时见过的API文档，但真实世界的API会更新。比如你用的是Slack API v2，但模型记的是v1，那么生成的参数格式就会是错的。相应的解决方案是让模型在运行时检索最新文档，而不是依赖记忆，这正是Gorilla这类研究在做的事。

第二个挑战是误差传播。多步任务中，前一步的小错会在后面放大。你让模型帮你查航班然后订酒店，如果航班时间解析错了，后面的酒店时间自然全错。解决方案是在关键节点加校验，或者干脆把长链路拆成短链路。

这两个问题都指向同一个结论：第二层Skills不是"写完就完"的一次性工程，而是需要持续维护的系统。

什么时候值得做成Skill

并不是所有事情都值得封装成技能模块。我认为判断标准可以看三点：频率够不够高（是不是反复出现的任务）、结构够不够稳定（步骤是否大致固定）、错了代价够不够高（是否需要可审计可追溯）。满足其中两条，就值得花时间做成Skill。

常见的误用是把一次性的探索任务做成技能。有的人可能会觉得"既然都写了，不如封装一下以后用"，结果技能目录越来越膨胀，维护成本反噬。开放式的、需要在对话中逐步澄清需求的任务，硬做成技能反而会让体验变差。

一个锚点

我相信Skills的双层框架是理解当前AI能力的一个有效切入点，而不只是一种学术分类方式。它解释了为什么"模型评测分数"和"实际使用体验"之间总有落差，也解释了为什么Agent这个概念最近这么火——Agent本质上就是在第二层Skills上做文章，试图让模型从"会说"变成"会做"。

接下来主要观察的指标：下一代模型在多步工具调用的成功率上能提升多少。因为这个指标比单项能力的benchmark更能说明问题，它同时考验了两层Skills。