LLM神话破灭?苹果论文揭示大语言模型根本性局限

日期:2025-06-10 16:51:00 / 人气:8


在苹果年度全球开发者大会(WWDC)前夕,这家科技巨头正面临AI竞赛的巨大压力。尽管此前持续预告“更聪明的Siri”即将上线,但技术展示寥寥,承诺尚未兑现,使其在激烈的AI竞争中显得被动。与此同时,前首席设计师Jony Ive转投OpenAI,更引发外界对苹果能否引领下一轮科技发展的质疑。

就在这一微妙时刻,苹果研究团队发布了一项颠覆性研究,被纽约大学心理学与神经科学教授Gary Marcus解读为对当下大语言模型(LLMs)的“致命一击”。

一、苹果论文:揭示LLMs的根本性弱点
这篇题为《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity》的论文,从问题复杂性的视角深入探讨了推理模型的优势与局限,主要观点如下:

模型存在根本性限制,复杂问题推理能力不足
当前的大语言模型,即便引入复杂的自我反思机制,依然无法在超过一定复杂度阈值的问题中表现出可泛化的推理能力。模型在不同复杂度问题中的表现呈现三种分界:低复杂度问题中,标准LLMs表现优于LRMs;中等复杂度问题中,LRMs占优;而在高复杂度问题中,两者均表现失败。

反直觉现象:接近关键复杂度时推理努力减少
研究发现,当问题接近关键复杂度时,模型的推理努力反而减少,这提示LRMs可能存在计算能力扩展的内在极限。模型的推理行为与问题复杂度密切相关,在简单问题上表现为低效的“过度思考”,在复杂问题上则完全无法作答。

可泛化推理存在根本性障碍,精确计算亦有局限
论文指出,LRMs可能存在可泛化推理的根本性障碍,在执行精确计算方面同样存在局限性。这一结论对LLMs的发展前景提出了严峻挑战。

Gary Marcus在解读文章《A knockout blow for LLMs?》中表示,LLMs无法替代精心设计的传统算法。虽在未来十年内仍有编码、头脑风暴和写作等用途,但认为LLMs能直接通往可根本改变社会的AGI(通用人工智能)是不切实际的。

二、批判强化:从训练分布边界到推理模型反思
Marcus认为,苹果这篇论文从两个维度强化了对LLMs根本性弱点的批判:

训练分布边界问题
这是Marcus自1998年以来不断强调的观点。神经网络擅长在“训练分布”范围内进行归纳和泛化,但一旦脱离这一熟悉的数据分布,模型能力便迅速崩溃。早在1998年,他就以多层感知器为例,指出这类神经网络在基础数学与语言预测任务中,遇到分布外(out - of - distribution)情境时,性能大幅下降。

推理模型的结构性问题
亚利桑那州立大学计算机科学家Subbarao(Rao)Kambhampati近年来围绕“推理模型”提出了一系列质疑。他指出,许多LLMs生成的“思维链”(chain of thought)看似严密,实则未必反映真实的推理过程。即便模型输出了一系列“思考步骤”,其执行路径往往并不与之对应,即“说”自己这样推理了,但实际上并没有这么做。而且,即使推理轨迹逻辑上无懈可击,模型的最终答案也可能错误。Rao甚至早在苹果团队之前,就发现了o1模型存在类似的结构性问题,并在线上发表了相关工作。苹果的最新论文进一步证实了这一点,表明即使是最新一代的“推理模型”也无法解决这一根本性问题。

三、实验证据:“汉诺塔”难题暴露模型缺陷
“汉诺塔”是计算机科学的经典入门难题,对于计算机而言几乎是“基础操作”,任何一本入门教材都能教会学生用递归算法解决七层汉诺塔。然而,苹果团队的实验结果令人失望:

Claude在处理7层汉诺塔问题时准确率不足80%,8层基本崩盘。备受瞩目的o3 - min(high)模型表现同样平平。更糟糕的是,即便直接把标准算法喂给模型,只要求其“照做”,它们依旧无法正确执行。这不仅质疑了“推理模型”的名号,更暴露出当前主流大模型在结构性问题上的严重不可靠。

苹果论文作者之一Iman Mirzadeh表示,他们的观点并非否定LRMs的价值,而是从思维过程来看,其逻辑性和智能性确实有所欠缺。Marcus认为,AI的未来应将科学家级别的因果推理能力与机器的计算速度相结合,在科学、医疗、能源等关键领域实现真正突破,才可能让AI对人类有益。反之,若连8层汉诺塔都解决不好,“提取地球光锥”或“解构物理学”等愿景都将沦为空中楼阁。

四、理性看待:LLMs并非万能,未来仍有多种可能
苹果的研究揭示,当前主流LLMs无法取代结构明确、逻辑清晰的传统算法。在处理某些复杂任务时,它们的表现远不如几十年前开发的专用系统。例如,在国际象棋、蛋白质折叠、数据库查询等方面,LLMs远逊于现有的专用工具。即使是被广泛称赞的o3或Claude模型,也未必能可靠运行。

某些情况下,LLMs能生成Python代码来“补足”自己的逻辑缺陷,但这只是将问题外包给外部程序逻辑,并未建立通用解题能力。而且,它们在简单场景中偶然成功,可能误导人们以为模型具备了可泛化的认知结构。Marcus指出,那些认为LLMs是通往AGI直接途径的人过于天真。

不过,苹果的研究也存在一定局限性。谜题环境虽能精细控制问题复杂性,但只能代表推理任务的一个小领域,难以涵盖现实世界中多样化和知识密集型的推理问题;大部分实验依赖对封闭前沿的LRMs的黑箱API访问,限制了对内部状态和架构组件的分析能力;使用确定性的谜题模拟器假设推理可逐步完美验证,在结构不严谨的领域,这种精确验证难以实现,限制了分析方法向更具普遍性的推理领域的应用。Marcus也提到,人类在进行汉诺塔游戏时也会出错,单纯通过该任务否定LLMs价值存在一定争议。

尽管如此,苹果的这项研究无疑为LLMs的发展敲响了警钟,提醒我们需理性看待其能力边界,探索更具潜力的AI发展方向。

作者:长运娱乐




现在致电 xylmwohu OR 查看更多联系方式 →

长运娱乐 版权所有