ICLR 2026｜隐式思考模型LRT：「隐式思维链」推理，更快更强！

近日，哈尔滨工业大学（深圳）联合深圳河套学院、Independent Researcher提出了隐式思考模型 LRT（Latent Reasoning Tuning），通过一个轻量级的推理网络，将大模型冗长的「思维链」压缩为紧凑的隐式向量表征，一次前向计算即可完成推理，无需逐 token 生成数千字的中间推理过程。

LRT 不仅实现了高效思考，还能作为一种全新的混合思考范式，在 Qwen3 系列模型上超越了其原生的非思考模式。

论文地址： https://openreview.net/forum?id=CbK7lYbmv8 代码开源： https://github.com/MobiusDai/LRT

出发点：大模型「自言自语」的推理过程真的全都有用吗？

以 OpenAI o1、DeepSeek-R1、Qwen QwQ 为代表的慢思考推理模型，通过生成详尽的逐步推理链来解决复杂问题，展现了强大的推理能力。然而，这些模型存在一个显著痛点 ——过度思考（Overthinking）：

推理延迟高、计算开销大，

Question：这些冗长的推理链真的全部必要吗？

关键发现：推理轨迹存在大量冗余

为了回答上述问题，团队设计了一组实验：在 DeepSeek-R1-Distill-Qwen-7B 模型上，将推理轨迹进行不同粒度的删减 —— 随机跳过一定比例的 token 或推理步骤，然后观察模型能否仅凭残缺的推理链给出正确答案。

核心洞察：即使随机丢弃 50% 的推理轨迹，模型准确率仅下降约 2 个百分点。这可以得出两个结论：

大量冗余信息，

强大的信息过滤能力，

这一发现直接启发了团队的核心思路：既然完整的逐步推理链并非必要，能否用一种更紧凑的隐式表征来替代它？

方法：隐式思考模型 LRT

基于上述洞察，团队提出了 Latent Reasoning Tuning（LRT）框架。其核心思想可以概括为：用一个轻量级推理网络，将显式的推理链「编码」为固定长度的隐式向量，直接注入大模型即可生成最终答案。

技术架构

如上图所示，传统推理模型需要逐 token 自回归生成整条推理链（Decode → Decode → ... → Decode），而 LRT 的流程为：

具体方法

模型的推理生成过程可分为两个阶段：

Prefill 阶段：

Decode 阶段：

在 Decode 阶段，思维链的生成过程可以形式化为：

既然推理轨迹是输入的函数，而已经证明了它存在大量冗余，那么一个自然的想法是：使用一个更高效的函数来替代它？

实验结果

1. 高效思考 —— 在不同 Token Budget 下表现最优

在 DeepSeek-R1-Distill-Qwen-1.5B 上，与多种高效推理方法进行对比：

在不同的 Token 预算下，LRT 在域内和域外任务上全面领先。在 512-Token 下，其平均准确率比 NoThinking 高 2.66%，比 RL 类方法 ShorterBetter、LC-R1 分别高 5.90% 和 4.74%。

2. 混合思考 —— 超越 Qwen3 原生混合思考模式

LRT 的模块化设计天然适合作为混合推理的新范式：面对简单问题使用隐式思考快速作答，面对困难问题切换回显式慢思考深入推理。在 Qwen3 系列模型上验证了这一能力：

在 Qwen3-4B 上，LRT 的 pass@4 平均准确率达到 71.60%，比 Qwen3 原生非思考模式高出 5.82 个百分点！在 GSM8K 上提升近 7%，在 LSAT 上提升超过 14%。这表明隐式推理向量能有效引导模型产生更多样、更高质量的解题路径。

3. 推理效率对比

LRT 的推理延迟显著低于 Qwen3 的混合思考模式，甚至比非思考模式还快 —— 因为隐式推理向量引导模型生成更简洁的答案，减少了解码步数。

4. 消融实验分析

隐式推理 token 数量的影响：随着隐式 token 数从 64 增加到 256，性能稳步提升（42.53% → 48.42%）。

两阶段训练：加入 RL 阶段后，域内任务平均提升约 9%，域外任务平均提升约 4.3%，验证了强化学习对隐式推理优化的关键作用。

更大的基础模型（如 Qwen3-8B）则能充分利用更多的隐式 token（使用 512 个隐式 token 时结果仍能提高），说明隐式推理的「容量」与基础模型能力正相关。

总结

隐式思考模型 LRT 开辟了一条全新的高效推理路径：

理论洞察：

高效思考：

混合思考：

效果优异：

作者信息

本文第一作者姜聪，哈尔滨工业大学（深圳）博士生，研究方向为高效思考与推理模型。通讯作者张正，哈尔滨工业大学（深圳）教授、博士生导师，教育部青年长江学者，主要从事高效能多模态人工智能的研究，近年专注于高效与可信多模态大模型。

主要完成单位为哈尔滨工业大学（深圳）& 深圳河套学院。