写不出新歌的复读机——图灵奖得主萨顿，用一个老笑话，戳破了这个时代最大的AI幻觉

2026年5月，强化学习之父、图灵奖得主理查德·萨顿录了一段演讲，用一个流传几十年的老笑话，对整个生成式AI时代下了死亡诊断书：「好的那部分，不新颖；新颖的那部分，不好。」他说的不是在批评ChatGPT，他说的是：生成式AI，永远成不了科学家。而贝夫把这个理论发到X上，马斯克回了两个字——Good point。

那个赢过一次的老人

2026年5月，一个老人重新开口了。

他叫理查德·萨顿——强化学习之父，图灵奖得主，没有「之一」。他从1980年代就开始研究强化学习，和老师巴托合著的《强化学习》，是全世界AI研究生的圣经教材。

2019年，他写了一篇几千字的文章，叫《苦涩的教训》。核心论点只有一句话：凡是靠人类小聪明、靠人工设计规则去做的AI，最终都会被「规模+通用算法」彻底碾压。

结果：3年后ChatGPT横空出世，字字应验。萨顿，赢了。

所以当这个「赢过一次」的老人，在2026年重新站出来说「规模这条路，也有尽头」——你最好认真听一听。

那个老笑话

萨顿这篇演讲，是给一个专门研究「怎么用AI做科学发现」的基金会录的。连陶哲轩这种顶级数学家都参与其中。

他一上来，没讲技术，讲了一个老笑话：

> 有一个研究员，把论文交去评审，意见回来写着——「这篇研究，既新颖，又好。遗憾的是——好的那部分，不新颖；新颖的那部分，不好。」

这个流传了几十年的、专门用来嘲讽学术废物的笑话，被萨顿用来精确描述2026年所有生成式AI的本质。

他说：这个评价，一字不差，适用于今天我们所有的生成式AI。

为什么「好」和「新」永远互斥

萨顿的逻辑很清晰：生成式AI的输出，来源只有两个。

第一个：训练数据。 AI模仿它学过的一亿篇文章，输出「好」的东西——但这个「好」，本质上是从人类那里抄来的，不新鲜。

第二个：随机性。 AI内部有个「掷骰子」机制，偏离训练数据，走没人走过的路——这带来了「新」，但同时也偏离了「好」的来源，所以往往是错的。

你天天听到的那个词——幻觉——本质上就是AI在尝试「新颖」，但因为没有任何东西来验证，所以那个「新」，往往不好。

好，来自数据，但不新。新，来自随机，但不好。天然互斥，永远无法兼得。

萨顿补了一句公道话：对99%的日常用途，这根本不是问题。总结文档、写代码、翻译——你要的是「好但不新」，生成式AI是完美的工具。

但对科学，这是致命的。 科学的本质恰恰就是「既新又好」——发现一个前人没发现过的、正确的真理。而一台模仿机器，永远，成不了科学家。

发现的公式

那么，真正的「发现」需要什么？

萨顿给出了一个公式，只有三步：

1. 变异（Variation）：先生成大量可能性，怎么古怪都行

2. 评估（Evaluation）：用明确标准判断哪个好、哪个烂

3. 选择性保留（Selective Retention）：留好的，扔烂的，再次瞎试

你认识这个公式——它叫达尔文进化论。也叫科学方法。也叫你学骑自行车的过程。

而生成式AI，致命地缺了第二步——评估。

在「推理阶段」（AI真正干活的时候），它没有任何实时机制判断自己的输出好不好。它是「裸奔」的。那些天才的火花，像萨顿说的，「会像火花一样，一闪而过，然后熄灭，被永远浪费掉。」

对比之下，AlphaGo的第37手——那步人类几百年没走过的神之一手——之所以能诞生，恰恰是因为AlphaGo有评估：它内部有个实时裁判，能算出每步棋的胜率。这就是那座灯塔。

同样的道理，萨顿在演讲里专门点名了Claude Code：写代码自带评估——AI写完代码，运行，报错或通过，这本身就是一个完整的「发现循环」。代码的执行环境，就是那座灯塔。这就是为什么AI在编程领域进步最快。

他等了这一天，等了40年

萨顿的时机选择，意味深长。

整个行业开始传出「规模定律撞墙了」的声音，堆参数的边际收益在肉眼可见地下降。就在这个节点，一个搞了40年强化学习、被边缘化了整整十年的老人，站出来说：「纯模仿，有天花板。要真正突破，你们得回到发现——回到我搞了40年的那个东西。」

而整个行业，已经在悄悄验证他说的话。o1、o3、R1这一代「会思考」的模型，本质上就是在生成式AI的基础上，硬生生装上了萨顿一直说的「评估」环节。

他不是在追热点。他是在所有人追热点之前画好地图，然后等着所有人走进来。

马斯克的两个字

物理学家出身的硅谷「有效加速主义」旗手贝夫·杰索斯，看完萨顿的演讲，发了一条帖子：

> 「Grok应该成为全世界最擅长发爆款帖的AI。人类是怎么变成发帖高手的？靠强化学习。你发帖，获得点赞转发，根据反馈迭代。而马斯克手里有全世界最好的这种数据——X平台上每秒钟的几十亿次互动。但xAI没有把这个反馈回灌进模型里。」

翻译成萨顿的公式：变异✓（Grok生成候选帖子），评估✗（X平台反馈数据还没接入），保留✗（还没做）。

马斯克，一个人，同时握着最大语言模型之一（Grok）和最大实时社会反馈数据集（整个X平台）。他握着变异的引擎，也握着评估的灯塔。但这两样东西，还没有被接到一起。

马斯克回了两个字：Good point.

达尔文，和你

萨顿把AI世界拉回到了一个古老的哲学分野：拉马克式，还是达尔文式？

拉马克说，长颈鹿天天伸脖子，所以脖子变长，然后直接遗传给下一代——直接继承后天获得的智慧。今天所有的生成式AI，就是这个路子：直接继承人类已经写好的一亿篇文章。

达尔文说不对：脖子有长有短（变异），长的更容易活（评估），代代筛选（保留）。这才是真正创造出新物种的方式。

而「发现循环」，不只是关于AI。它关于一切创造——包括你自己的人生。

你，是一台「模仿机器」，还是一台「发现机器」？

读书背标准答案，工作复制别人的路径，投资跟着「别人都在买」走——这是精密的拉马克式人生。它让你过得「还不错」，就像生成式AI能很好地总结文档一样。但它永远不会让你做出属于自己的发现。

你缺的，不是努力。是一座属于自己的灯塔——一套独立的评估标准，而不是用「别人怎么说」来判断对错。

萨顿那个算法的核心，叫「持续反向传播」：定期杀死最偷懒的神经元，强行注入新鲜血液，保持终身可塑性。

翻译成人话就是：逼自己，定期接触你最抗拒的、最不舒服的新东西。让变异，永不停止。

复读机再贵、再精密，也写不出一首新歌。

而新歌，从来都属于那些，敢于瞎试、并且听得见自己内心那座灯塔的人。