“缩放定律”悖论:RL越强,AGI越远?

知名科技博主Dwarkesh Patel指出,各大实验室耗费数十亿美元,通过强化学习(RL)为大模型“预制”Excel操作、网页浏览等技能,这一行为恰恰暴露其距真正通用智能(AGI)仍有不小差距。若AI真接近类人智能,应像人类一样从经验中自主学习,而非依赖“可验证奖励训练”。他认为,AGI的真正突破在于“持续学习”能力,这一过程或需5-10年才能完善。
在AI迈向AGI的竞赛中,当前备受追捧的RL路径,可能正将行业引向歧路——RL投入越多、能力越强,距离真正的AGI或许越远。12月24日,Patel发布视频直击行业痛点,在硅谷普遍看好缩放定律(Scaling Law)和RL的背景下,他提出反直觉观点:对RL的过度依赖,并非通往AGI的捷径,而是AGI远未到来的明确信号。
Patel的核心论点是,当前顶尖实验室正通过基于可验证结果的RL,为大模型植入大量特定技能,但这本身存在逻辑冲突。“如果我们真的接近类人学习者,这套基于可验证结果的训练方法就注定失败。”他认为,这种“预置”技能的模式,暴露了当前模型的根本缺陷:人类无需为工作的每一个细微部分建立专门训练循环,而真正的智能体应能通过经验和反馈自主学习,否则其通用性会大打折扣,与AGI相去甚远。
因此,Patel强调,通往更强大AI的关键并非无尽的RL,而是“持续学习”——像人类一样从经验中学习的能力。他预测,解决持续学习问题不会是一蹴而就的成就,而是渐进过程,类似模型“上下文学习”能力的逐步演进,可能需要5到10年完善,可避免某一模型因率先突破而获得“失控优势”。
核心要点可概括为五点:一是技能预制的悖论,当前模型依赖“预先植入”技能,证明其缺乏通用学习能力,AGI并非近在眼前;二是机器人学的启示,机器人普及的瓶颈的是算法而非硬件,类人学习能力缺失导致需反复大量训练;三是经济扩散的“托词”,“技术扩散需要时间”是自我安慰,若模型有类人智能,会被企业快速吸纳;四是收入与能力的落差,模型收入远低于全球知识工作者创造的价值,证明其尚未达到替代人类的临界点;五是持续学习是关键,AGI的瓶颈的是持续学习能力,而非RL算力堆叠,真正的AGI可能需10到20年实现。
Patel在视频中进一步补充,当前实验室的RL训练模式,暗示其默认模型在泛化能力和在岗学习上表现不佳,才需预先植入经济实用技能。他以机器人训练、实验室生物图像识别为例,说明人类工人的价值在于无需繁琐训练循环,而当前AI无法做到这一点,难以自动化各类复杂工作。
对于“技术扩散需要时间”的说法,Patel认为这是托词。若模型真有类人智能,会比人类员工更易整合,快速被企业接纳,而当前模型收入与人类知识工作者差距巨大,恰恰说明其能力不足。他还提到,人们常低估AGI的影响力,也低估了智能和劳动的复杂性,过去对AGI的定义往往过于狭隘。
关于技术进展,Patel指出,预训练的改进趋势清晰,但RL的扩展缺乏明确乐观趋势,有研究显示需将RL计算规模扩大约100万倍,才能获得类似单一GPT级别的提升。他认为,AGI的关键驱动力是持续学习,其进展会像上下文学习一样逐步推进,不会一蹴而就,且实验室间的竞争会抵消单一机构的“失控优势”,预计5-10年才能实现人类水平的“在岗学习”。
