那个赢过一次的老人
2026年5月,一个老人重新开口了。
他叫理查德·萨顿——强化学习之父,图灵奖得主,没有「之一」。他从1980年代就开始研究强化学习,和老师巴托合著的《强化学习》,是全世界AI研究生的圣经教材。
2019年,他写了一篇几千字的文章,叫《苦涩的教训》。核心论点只有一句话:凡是靠人类小聪明、靠人工设计规则去做的AI,最终都会被「规模+通用算法」彻底碾压。
结果:3年后ChatGPT横空出世,字字应验。萨顿,赢了。
所以当这个「赢过一次」的老人,在2026年重新站出来说「规模这条路,也有尽头」——你最好认真听一听。
那个老笑话
萨顿这篇演讲,是给一个专门研究「怎么用AI做科学发现」的基金会录的。连陶哲轩这种顶级数学家都参与其中。
他一上来,没讲技术,讲了一个老笑话:
> 有一个研究员,把论文交去评审,意见回来写着——「这篇研究,既新颖,又好。遗憾的是——好的那部分,不新颖;新颖的那部分,不好。」
这个流传了几十年的、专门用来嘲讽学术废物的笑话,被萨顿用来精确描述2026年所有生成式AI的本质。
他说:这个评价,一字不差,适用于今天我们所有的生成式AI。
为什么「好」和「新」永远互斥
萨顿的逻辑很清晰:生成式AI的输出,来源只有两个。
第一个:训练数据。 AI模仿它学过的一亿篇文章,输出「好」的东西——但这个「好」,本质上是从人类那里抄来的,不新鲜。
第二个:随机性。 AI内部有个「掷骰子」机制,偏离训练数据,走没人走过的路——这带来了「新」,但同时也偏离了「好」的来源,所以往往是错的。
你天天听到的那个词——幻觉——本质上就是AI在尝试「新颖」,但因为没有任何东西来验证,所以那个「新」,往往不好。
好,来自数据,但不新。新,来自随机,但不好。天然互斥,永远无法兼得。
萨顿补了一句公道话:对99%的日常用途,这根本不是问题。总结文档、写代码、翻译——你要的是「好但不新」,生成式AI是完美的工具。
但对科学,这是致命的。 科学的本质恰恰就是「既新又好」——发现一个前人没发现过的、正确的真理。而一台模仿机器,永远,成不了科学家。
发现的公式
那么,真正的「发现」需要什么?
萨顿给出了一个公式,只有三步:
1. 变异(Variation):先生成大量可能性,怎么古怪都行
2. 评估(Evaluation):用明确标准判断哪个好、哪个烂
3. 选择性保留(Selective Retention):留好的,扔烂的,再次瞎试
你认识这个公式——它叫达尔文进化论。也叫科学方法。也叫你学骑自行车的过程。
而生成式AI,致命地缺了第二步——评估。
在「推理阶段」(AI真正干活的时候),它没有任何实时机制判断自己的输出好不好。它是「裸奔」的。那些天才的火花,像萨顿说的,「会像火花一样,一闪而过,然后熄灭,被永远浪费掉。」
对比之下,AlphaGo的第37手——那步人类几百年没走过的神之一手——之所以能诞生,恰恰是因为AlphaGo有评估:它内部有个实时裁判,能算出每步棋的胜率。这就是那座灯塔。
同样的道理,萨顿在演讲里专门点名了Claude Code:写代码自带评估——AI写完代码,运行,报错或通过,这本身就是一个完整的「发现循环」。代码的执行环境,就是那座灯塔。这就是为什么AI在编程领域进步最快。
他等了这一天,等了40年
萨顿的时机选择,意味深长。
整个行业开始传出「规模定律撞墙了」的声音,堆参数的边际收益在肉眼可见地下降。就在这个节点,一个搞了40年强化学习、被边缘化了整整十年的老人,站出来说:「纯模仿,有天花板。要真正突破,你们得回到发现——回到我搞了40年的那个东西。」
而整个行业,已经在悄悄验证他说的话。o1、o3、R1这一代「会思考」的模型,本质上就是在生成式AI的基础上,硬生生装上了萨顿一直说的「评估」环节。
他不是在追热点。他是在所有人追热点之前画好地图,然后等着所有人走进来。
马斯克的两个字
物理学家出身的硅谷「有效加速主义」旗手贝夫·杰索斯,看完萨顿的演讲,发了一条帖子:
> 「Grok应该成为全世界最擅长发爆款帖的AI。人类是怎么变成发帖高手的?靠强化学习。你发帖,获得点赞转发,根据反馈迭代。而马斯克手里有全世界最好的这种数据——X平台上每秒钟的几十亿次互动。但xAI没有把这个反馈回灌进模型里。」
翻译成萨顿的公式:变异✓(Grok生成候选帖子),评估✗(X平台反馈数据还没接入),保留✗(还没做)。
马斯克,一个人,同时握着最大语言模型之一(Grok)和最大实时社会反馈数据集(整个X平台)。他握着变异的引擎,也握着评估的灯塔。但这两样东西,还没有被接到一起。
马斯克回了两个字:Good point.
达尔文,和你
萨顿把AI世界拉回到了一个古老的哲学分野:拉马克式,还是达尔文式?
拉马克说,长颈鹿天天伸脖子,所以脖子变长,然后直接遗传给下一代——直接继承后天获得的智慧。今天所有的生成式AI,就是这个路子:直接继承人类已经写好的一亿篇文章。
达尔文说不对:脖子有长有短(变异),长的更容易活(评估),代代筛选(保留)。这才是真正创造出新物种的方式。
而「发现循环」,不只是关于AI。它关于一切创造——包括你自己的人生。
你,是一台「模仿机器」,还是一台「发现机器」?
读书背标准答案,工作复制别人的路径,投资跟着「别人都在买」走——这是精密的拉马克式人生。它让你过得「还不错」,就像生成式AI能很好地总结文档一样。但它永远不会让你做出属于自己的发现。
你缺的,不是努力。是一座属于自己的灯塔——一套独立的评估标准,而不是用「别人怎么说」来判断对错。
萨顿那个算法的核心,叫「持续反向传播」:定期杀死最偷懒的神经元,强行注入新鲜血液,保持终身可塑性。
翻译成人话就是:逼自己,定期接触你最抗拒的、最不舒服的新东西。让变异,永不停止。
复读机再贵、再精密,也写不出一首新歌。
而新歌,从来都属于那些,敢于瞎试、并且听得见自己内心那座灯塔的人。