SwiReasoning: 潜在空間と明示的空間におけるスイッチ思考によるパレート最適な推論LLM
SwiReasoning: Switch-Thinking in Latent and Explicit for Pareto-Superior Reasoning LLMs
October 6, 2025
著者: Dachuan Shi, Abedelkadir Asi, Keying Li, Xiangchi Yuan, Leyan Pan, Wenke Lee, Wen Xiao
cs.AI
要旨
最近の研究では、自然言語の境界に制約される明示的な連鎖的思考ステップによる離散的な推論を超えて、大規模言語モデル(LLM)が潜在空間で連続的に推論できることが示されています。これにより、ステップごとに豊富な情報を扱えるようになり、トークン効率が向上します。しかし、この可能性にもかかわらず、特にトレーニング不要の設定では、潜在推論には依然として2つの課題が存在します。1) 純粋な潜在推論は、複数の暗黙的な経路を維持することで探索分布を広げ、確率質量を拡散させ、ノイズを導入し、単一の高信頼度解への収束を妨げるため、精度が低下します。2) 明示的なテキストがなくても「過剰思考」が持続し、トークンを浪費し効率を低下させます。これらの問題に対処するため、我々はSwiReasoningを導入します。これは、LLM推論のためのトレーニング不要のフレームワークで、以下の2つの主要な革新を特徴とします。1) SwiReasoningは、次トークン分布のエントロピー傾向から推定されるブロックごとの信頼度に基づいて、明示的推論と潜在推論を動的に切り替え、探索と活用のバランスを取り、適時の収束を促進します。2) 思考ブロックの切り替え回数を制限することで、SwiReasoningは過剰思考を抑制し、問題の難易度に応じたトークン効率を向上させます。広く使用されている数学およびSTEMベンチマークにおいて、SwiReasoningは、異なるモデルファミリーやスケールの推論LLM全体で、平均精度を1.5%~2.8%向上させます。さらに、制約された予算下では、SwiReasoningは平均トークン効率を56%~79%向上させ、予算が厳しくなるほどその効果が大きくなります。
English
Recent work shows that, beyond discrete reasoning through explicit
chain-of-thought steps, which are limited by the boundaries of natural
languages, large language models (LLMs) can also reason continuously in latent
space, allowing richer information per step and thereby improving token
efficiency. Despite this promise, latent reasoning still faces two challenges,
especially in training-free settings: 1) purely latent reasoning broadens the
search distribution by maintaining multiple implicit paths, which diffuses
probability mass, introduces noise, and impedes convergence to a single
high-confidence solution, thereby hurting accuracy; and 2) overthinking
persists even without explicit text, wasting tokens and degrading efficiency.
To address these issues, we introduce SwiReasoning, a training-free framework
for LLM reasoning which features two key innovations: 1) SwiReasoning
dynamically switches between explicit and latent reasoning, guided by
block-wise confidence estimated from entropy trends in next-token
distributions, to balance exploration and exploitation and promote timely
convergence. 2) By limiting the maximum number of thinking-block switches,
SwiReasoning curbs overthinking and improves token efficiency across varying
problem difficulties. On widely used mathematics and STEM benchmarks,
SwiReasoning consistently improves average accuracy by 1.5%-2.8% across
reasoning LLMs of different model families and scales. Furthermore, under
constrained budgets, SwiReasoning improves average token efficiency by 56%-79%,
with larger gains as budgets tighten.