苹果新论文分析DeepSeek-R1遇到复杂度阈值后准确率崩溃问题

2025年6月10日 04:32

相信使用过DeepSeek-R1模型的人，对于它在给出答案之前的思考过程并不陌生，这也是包含DeepSeek-R1在内的大型推理模型（LRM，LargeReasoningModel）备受推崇的原因之一。

然而，由苹果公司六位研究人员组成的团队却对此提出了质疑。通过让模型解答各种谜题，研究团队发现DeepSeek-R1、o3-mini和Claude-3.7-Sonnet-Thinking这几款前沿大型推理模型在超过某一复杂度阈值之后，它们的准确率会出现全面崩溃。

图|相关论文的六位作者，右二为萨米·本吉奥（SamyBengio）（来源：资料图）

X上有一名网友总结称，苹果这是当了一次加里·马库斯（GaryMarcus），其实加里·马库斯本人也在领英发帖肯定了苹果这篇论文。他写道：“苹果公司最新发表的关于大语言模型中‘推理’能力的论文颇具震撼力。我在一篇周末长文中解释了其中的原因（并探讨了一种可能的反对意见），以说明为何大家其实不应感到太过惊讶。”

在加里·马库斯的“周末长文”里他写道：“这篇苹果公司的新论文进一步佐证了我本人的批评观点：即便最新研发的所谓‘推理模型’已经迭代超越o1版本，但在汉诺塔等经典问题上，它们依然无法实现分布外可靠推理。对于那些寄希望于‘推理能力’或‘推理时计算’能让大语言模型重回正轨、摆脱单纯规模扩张却屡屡失败（始终无法产出配得上‘GPT-5’名号的技术突破）的研究者而言，这无疑是个坏消息。”

（来源：资料图）

这些谜题具有以下特点：

（1）能够提供对于复杂度的精细控制；

（2）避免现有基准中常见的污染；

（3）仅需依赖明确给定的规则，强调算法化推理能力；

（4）支持基于模拟器的严格评估，能够实现精确的解决方案检查和详细的故障分析。

通过实证研究，他们揭示了关于当前大型推理模型的几个关键发现：

首先，尽管大型推理模型通过强化学习能够学习复杂的自我反思机制，但它们未能为规划任务开发出可泛化的问题解决能力，在超过一定的复杂度阈值后，性能会降至零。

其次，研究团队在等效推理计算下对大型推理模型和标准大模型的比较揭示了三种不同的推理机制。

第一种机制是：对于更简单、组合性较低的问题，标准大模型表现出更高的效率和准确性。

第二种机制是：随着问题复杂度的适度增加，大型推理模型获得了优势。

第三种机制是：当问题随着组合深度的增加而变得复杂时，两类模型都经历了彻头彻尾的性能崩溃。

（来源：资料图）

这表明，大型推理模型的推理能力存在一个根本性限制：其推理时间会随着问题复杂度的增长而显著增加。

此外，通过对中间推理轨迹的分析，研究团队发现了与问题复杂度相关的规律性现象，即在较简单的问题中，推理模型往往能快速找到错误解，但却仍会低效地继续探索错误选项，这种现象便是人们常说的“过度思考”。

在中等复杂度的问题中，模型需要经过对大量错误路径的广泛探索后，才能找到正确解。而超过一定的复杂度阈值，模型完全无法找到正确解。

北京邮电大学副教授白婷告诉DeepTech，跟人类思维方式相近，对于复杂问题，虽然不知道什么是正确的答案，但是很多时候知道什么是不正确的。具体而言，这跟求解空间大小有关系，简单问题的求解空间因逻辑链条简短、特征匹配度高，正确解往往天然处于思维路径的前端，而复杂问题的解空间因涉及多维度变量耦合、逻辑层级嵌套而呈现指数级膨胀，求解空间庞大，客观上表现为思维序列中的相对后置性。推理模型的“思维”内部发生了什么？

研究中，大多数实验都是在推理模型及对应的非推理模型上进行的，例如Claude3.7Sonnet（有推理/无推理）和DeepSeek-R1/V3。研究团队选择这些模型是因为与OpenAI的o系列等模型不同的是，它们允许访问思维token。

对于每个谜题实例，研究团队生成25个样本，并报告了每个模型的平均性能。

为了更深入地了解推理模型的思考过程，研究团队对它们的推理痕迹进行了细致的分析。

期间，他们通过谜题实验环境的构建，实现了对模型最终答案之外的深度解析，从而能够对其生成的推理轨迹（即“思考过程”）进行更精细的观测与分析。

具体来说，他们借助谜题模拟器，对模型思维过程中探索的中间解进行了提取与分析。

随后，他们考察了这些中解的模式和特征、相对于推理过程中顺序位置的正确性，以及这些模式如何随着问题复杂度的增加而演变。

对于这一分析，研究团队重点关注了Claude3.7Sonnet推理模型在谜题组实验中产生的推理痕迹。

对于痕迹中确定的每个中间解法，研究团队记录了以下内容：（1）其在推理轨迹中的相对位置（按总思维长度归一化），（2）经研究团队的谜题模拟器验证的其正确性，（3）相应问题的复杂度。

这使得研究团队能够描述整个推理过程中解决方案形成的进展和准确性。

然而，对于更复杂的问题，这一趋势会发生变化——解决方案的准确性会随着思考的推进而提高，直至达到某个阈值。超过这个复杂度阈值，在“崩溃模式”下，模型的准确率为零。

白婷告诉DeepTech，模型在复杂问题中需要多次推理，在一直没有正确解的前提下，模型推理机制中有可能采用了多次迭代推理生成效率优化策略，或许是防止迭代过多的一种资源保护策略。因此，本次论文中的发现需要从模型实现层面去进行细致的分析和验证。

白婷指出，大模型的推理过程本质上是记忆模式的调用也是有可能的。对于DeepSeek-R1、o3-mini这类模型，其表现高度依赖训练数据中记忆模式的覆盖范围，当问题复杂度突破记忆模式的覆盖阈值（如本次苹果研究团队设计的可控谜题环境），模型便陷入“零准确率”状态。

虽然本次谜题环境允许对问题复杂度进行细粒度控制的受控实验，但它们仅代表推理任务的一小部分，可能无法捕捉到现实世界或知识密集型推理问题的多样性。

需要指出的是，本研究主要基于黑箱API访问封闭的前沿大推理模型，这一限制使研究团队无法分析其内部状态或架构组件。

此外，使用确定性谜题模拟器时，研究团队假设推理可以一步一步地得到完美验证。然而，在结构化程度较低的领域，这种精确的验证可能难以实现，从而限制了该分析方法向更广泛推理场景的迁移。

总的来说，研究团队通过可控的解谜环境，从问题复杂度的角度考察了前沿大型推理模型。这一成果揭示了当前模型的局限性：即尽管它们拥有复杂的自我反思机制，但这些模型在超过特定复杂度阈值后，仍然无法发展出可泛化的推理能力。研究团队认为，本次成果或许能为研究这些模型的推理能力铺平道路。

免责声明:苹果新论文分析DeepSeek-R1遇到复杂度阈值后准确率崩溃问题文章转发自互联网，版权归其所有。
文章内容不代表本站立场和任何投资暗示。加密货币市场极其波动，风险很高，可能不适合所有投资者。在投资加密货币之前，请确保自己充分了解市场和投资的风险，并考虑自己的财务状况和风险承受能力。此外，请遵循您所在国家的法律法规，以及遵守交易所和钱包提供商的规定。对于任何因使用加密货币所造成的投资损失或其他损失，本站不承担任何责任。

南宫28

苹果新论文分析DeepSeek-R1遇到复杂度阈值后准确率崩溃问题

元宇宙最新

元宇宙热门