虽然这个区分听起来像废话,但我认为它是理解当下AI能力的一把钥匙。最近我在用几个AI帮我处理一些重复性任务的时候,发现一个有意思的现象:模型明明"会"做某件事,比如它能写出语法正确的Python、能解释清楚一个算法,但!真要让它帮我跑通一个涉及三个API的小流程,就开始掉链子。问题不在于它"不会",而在于"会"和"能做完"之间,隔着一整层东西。

这层东西,就是"Skills",这个词在AI的语境下有两层含义,搞混了容易产生错误期待。

第一层:模型"会什么"

第一层Skills是模型通过训练涌现出的内在能力。推理、编程、翻译、写作,这些能力不是被人类一条条"写进去"的,而是模型在吃了足够多数据、参数量足够大之后,自己"长出来"的。这个过程有点反直觉:模型做的事情本质上只是"预测下一个词",但当它在海量代码、数学教材、对话语料上做了足够多的预测练习后,某些逻辑模式就被它内化了。

Researcher管这种现象叫"涌现能力",就是当模型规模过了某个临界点,原本做不到的事突然就能做了。2022年Wei的论文专门讨论过这个现象。我觉得这有点像一个人背了足够多的棋谱之后,突然悟出了某种"棋感",不再只是机械套招了。(我早期背英语单词的时候也有类似体验:背到一定量后,突然发现自己能猜出不认识的单词意思了。)

2023年Schaeffer发了一篇论文,标题叫《大语言模型的涌现能力是海市蜃楼吗?》。他们的论点是:所谓"突然涌现",可能部分是评估指标的伪影。如果你用的是精确匹配这种非线性指标,模型能力的增长会被压缩成一条阶跃函数,看起来像突然开窍,其实能力一直在平滑增长,只是你的尺子不够细。这个可能性我没法排除,但即便如此,模型确实在做一些训练数据里没有明确教过的事情,这一点我认为是可以站住脚的。

第二层:模型"怎么做"

第二层Skills是把模型的能力封装成可执行的模块。这一层不是在讨论模型"会不会",而是在讨论"能不能可靠地做完一件事"。

区别在哪?假设你让模型帮你安排一次出差:查航班、选酒店、把会议写进日历。模型可能"会"查航班(知道该调用什么API),"会"选酒店(能给出合理建议),"会"写日历(懂日历格式)。但这三步要串起来,就需要一套额外的东西:谁来决定先做哪步?参数格式对不对?API返回出错怎么办?时区不一致怎么处理?

这就是"外在技能层"在做的事。它包括几个关键组件:规划器负责把目标拆成子任务,执行器负责真正调用API,校验器负责检查返回结果是否合理。

这个分层让我意识到一件事:当我认为"AI能做X"的时候,其实在混用两个不同的"能"。一个是"具备做X的能力",另一个是"能可靠地把X做完"。前者是模型的事,后者是系统的事。

为什么这个区分重要

当我理解这两层的区别,直接影响了我对AI产品的预期管理。

如果我只看到第一层,会倾向于认为"模型越强就越能用",然后困惑于为什么GPT-4明明比GPT-3聪明那么多,帮我干活的时候还是经常掉链子。原因往往不在智力,而在于第二层的工程没做好:工具文档过时了、参数校验没做、错误处理是空白。

反过来,如果我只看到第二层,会倾向于认为"只要流程够细就能解决一切",然后困惑于为什么同样的流程在这个模型上跑得通、在那个模型上就不行。原因在于底层能力不够——第一层撑不住。

把钱花在哪边,取决于你的瓶颈在哪边。

真正的工程挑战

事实上,外部看不清现在各家AI公司在这两层上分别投入了多少资源。但从公开信息能观察到的是,工程侧的挑战正在变得更明显。

第一个挑战是版本漂移。模型记住的是它训练时见过的API文档,但真实世界的API会更新。比如你用的是Slack API v2,但模型记的是v1,那么生成的参数格式就会是错的。相应的解决方案是让模型在运行时检索最新文档,而不是依赖记忆,这正是Gorilla这类研究在做的事。

第二个挑战是误差传播。多步任务中,前一步的小错会在后面放大。你让模型帮你查航班然后订酒店,如果航班时间解析错了,后面的酒店时间自然全错。解决方案是在关键节点加校验,或者干脆把长链路拆成短链路。

这两个问题都指向同一个结论:第二层Skills不是"写完就完"的一次性工程,而是需要持续维护的系统。

什么时候值得做成Skill

并不是所有事情都值得封装成技能模块。我认为判断标准可以看三点:频率够不够高(是不是反复出现的任务)、结构够不够稳定(步骤是否大致固定)、错了代价够不够高(是否需要可审计可追溯)。满足其中两条,就值得花时间做成Skill。

常见的误用是把一次性的探索任务做成技能。有的人可能会觉得"既然都写了,不如封装一下以后用",结果技能目录越来越膨胀,维护成本反噬。开放式的、需要在对话中逐步澄清需求的任务,硬做成技能反而会让体验变差。

一个锚点

我相信Skills的双层框架是理解当前AI能力的一个有效切入点,而不只是一种学术分类方式。它解释了为什么"模型评测分数"和"实际使用体验"之间总有落差,也解释了为什么Agent这个概念最近这么火——Agent本质上就是在第二层Skills上做文章,试图让模型从"会说"变成"会做"。

接下来主要观察的指标:下一代模型在多步工具调用的成功率上能提升多少。因为这个指标比单项能力的benchmark更能说明问题,它同时考验了两层Skills。

← 返回科技与AI · Back to Tech & AI