- Published on
姚顺雨:AI Agent 的下半场
- Authors
- Name
- 浩森 Hansen
来自于姚顺雨在 2025.4.10 的一场宣讲。我的知识库笔记在:姚顺雨, The Second Half
姚顺雨毕业于清华大学计算机实验班,博士毕业于普林斯顿,目前在 OpenAI 担任 Agent 工程师。
他的博客The Second Half – Shunyu Yao – 姚顺雨以文字形式发布了宣讲内容,他将人工智能的发展划分为两个阶段:
- 上半场:基于强化学习的发展阶段
- 下半场:AI解决更多的实际问题
从以上观点出发,姚认为,产品经理将在 AI 在下半场的竞赛中扮演更重要的角色。
上半场 The First Half
在 AI 研究的初期,大量的研究工作都集中在强化学习上,不论是 Transformer、GPT-3、AlexNet,而对于评估这些算法的手段却研究很少。
例如,Transformer 论文的引用数量在 16000,而关于评估 Transformer 的 WMT‘14 却只有 1300 次引用。
这种情况造成了一个后果,就是强化学习在评估手段上的过拟合。强化学习总是可以在这些评估中获得很好的结果,总是可以赢得游戏(game winners)。

姚顺雨提出了一个强化学习的“配方(recipe)”,意思是说,一个强化学习模型的最终表现,受到三个因素的影响,分别是:
- 算法(Algorithm)指强化学习算法本身
- 环境(Environment),强化学习的环境
- 先验(Prior),先验知识,类比为人类对于世界的“常识”认知
他举了一个例子,OpenAI 在早期做了许多人工智能系统,例如 DoTA 游戏智能体,机器手等,但最后只有 GPT 获得了处理通用任务的能力。
为什么会这样?因为 GPT 在对大量数据集的训练过程中,获得了对人类世界“常识”的认识。
如果说先验=常识,GPT 为代表的语言模型善于使用语言处理常识,然后,它就可以利用常识推理(reasoning),将一个任务的经验“迁移”到另一个任务上。
也就是说,大语言模型,正因为可以理解语言,进而理解常识,然后就可以处理通用问题。

所以在 GPT 的身上,我们看到了“先验”对于强化学习系统的重要性。
下半场 The Second Half
直到 2025 年中,基于强化学习的智能体本身已经比较完善,这现在,也正是“下半场”的开始。
姚顺雨认为,传统的评估手段,例如更难的考试题、更复杂的算法编程题,都是属于“工具问题(utility problems)”,它们脱离现实世界。
工具问题存在两个短板:
- 仅能评估自主处理任务的能力:所有的任务由人工智能智能体自行完成,过程中没有与用户交互的机会。
- 所有问题都是独立的:任务和任务之间没有关联,而显示生活中的任务,却都是关联性极强,有先后顺序的。
因此,当前评估的方法应该被更新的方式替代:
- 应该用更贴近现实世界的评估方法
- 仍然基于现有强化学习的组成部分:算法,环境和先验,继续迭代智能体的性能

参考文献
This work is licensed under Creative Commons Attribution-NonCommercial 4.0 International