双赐新材料工业添加剂 - 让化工原料采购省心省力

知名科技博主Dwarkesh Patel指出，各大实验室耗费数十亿美元，通过强化学习（RL）为大模型“预制”Excel操作、网页浏览等技能，这一行为恰恰暴露其距真正通用智能（AGI）仍有不小差距。若AI真接近类人智能，应像人类一样从经验中自主学习，而非依赖“可验证奖励训练”。他认为，AGI的真正突破在于“持续学习”能力，这一过程或需5-10年才能完善。在AI迈向AGI的竞赛中，当前备受追捧的RL路径，可能正将行业引向歧路——RL投入越多、能力越强，距离真正的AGI或许越远。12月24日，Patel发布视频直击行业痛点，在硅谷普遍看好缩放定律（Scaling Law）和RL的背景下，他提出反直觉观点：对RL的过度依赖，并非通往AGI的捷径，而是AGI远未到来的明确信号。 Patel的核心论点是，当前顶尖实验室正通过基于可验证结果的RL，为大模型植入大量特定技能，但这本身存在逻辑冲突。“如果我们真的接近类人学习者，这套基于可验证结果的训练方法就注定失败。”他认为，这种“预置”技能的模式，暴露了当前模型的根本缺陷：人类无需为工作的每一个细微部分建立专门训练循环，而真正的智能体应能通过经验和反馈自主学习，否则其通用性会大打折扣，与AGI相去甚远。因此，Patel强调，通往更强大AI的关键并非无尽的RL，而是“持续学习”——像人类一样从经验中学习的能力。他预测，解决持续学习问题不会是一蹴而就的成就，而是渐进过程，类似模型“上下文学习”能力的逐步演进，可能需要5到10年完善，可避免某一模型因率先突破而获得“失控优势”。核心要点可概括为五点：一是技能预制的悖论，当前模型依赖“预先植入”技能，证明其缺乏通用学习能力，AGI并非近在眼前；二是机器人学的启示，机器人普及的瓶颈的是算法而非硬件，类人学习能力缺失导致需反复大量训练；三是经济扩散的“托词”，“技术扩散需要时间”是自我安慰，若模型有类人智能，会被企业快速吸纳；四是收入与能力的落差，模型收入远低于全球知识工作者创造的价值，证明其尚未达到替代人类的临界点；五是持续学习是关键，AGI的瓶颈的是持续学习能力，而非RL算力堆叠，真正的AGI可能需10到20年实现。 Patel在视频中进一步补充，当前实验室的RL训练模式，暗示其默认模型在泛化能力和在岗学习上表现不佳，才需预先植入经济实用技能。他以机器人训练、实验室生物图像识别为例，说明人类工人的价值在于无需繁琐训练循环，而当前AI无法做到这一点，难以自动化各类复杂工作。对于“技术扩散需要时间”的说法，Patel认为这是托词。若模型真有类人智能，会比人类员工更易整合，快速被企业接纳，而当前模型收入与人类知识工作者差距巨大，恰恰说明其能力不足。他还提到，人们常低估AGI的影响力，也低估了智能和劳动的复杂性，过去对AGI的定义往往过于狭隘。关于技术进展，Patel指出，预训练的改进趋势清晰，但RL的扩展缺乏明确乐观趋势，有研究显示需将RL计算规模扩大约100万倍，才能获得类似单一GPT级别的提升。他认为，AGI的关键驱动力是持续学习，其进展会像上下文学习一样逐步推进，不会一蹴而就，且实验室间的竞争会抵消单一机构的“失控优势”，预计5-10年才能实现人类水平的“在岗学习”。

“缩放定律”悖论：RL越强，AGI越远？