ChatPaper.aiChatPaper

ThinkRouter: 潜在空間と離散空間間の思考経路による効率的な推論

ThinkRouter: Efficient Reasoning via Routing Thinking between Latent and Discrete Spaces

February 12, 2026
著者: Xin Xu, Tong Yu, Xiang Chen, Haoliang Wang, Julian McAuley, Saayan Mitra
cs.AI

要旨

近年、潜在推論を用いて明示的な推論軌跡を潜在空間における連続表現に置き換えることで推論効率を向上させる研究が進められているが、その有効性は設定によって異なる。潜在推論下におけるモデルの確信度動態を分析した結果、誤った答えで終わる思考軌跡は、正しい答えで終わる思考軌跡に比べて、低確信度のステップが少ないことが明らかになった。一方、複数の低確信度の思考選択肢を集約したソフト埋め込みはノイズを導入・伝播させ、信頼性の低い推論軌跡に対して高い確信度をもたらす可能性がある。これらの観察に基づき、推論時の確信度を考慮したルーティング機構であるThinkRouterを提案し、効率的な推論のために高い確信度とノイズを回避する。ThinkRouterは、モデルの確信度が低い場合は思考を離散トークン空間に、そうでない場合は潜在空間にルーティングする。様々な大規模推論モデルを用いたSTEM推論およびコーディングベンチマークによる大規模実験により、ThinkRouterが明示的なCoT、ランダムルーティング、潜在推論ベースラインを精度で上回り、Pass@1で平均19.70ポイントの改善を達成すると同時に、生成長を最大15.55%削減できることが実証された。さらに詳細な分析により、ThinkRouterが明示的CoTと潜在推論から生じる誤りを較正し、モデルの確信度を全体的に低下させることで思考終了トークンの生成を加速させることを明らかにした。
English
Recent work explores latent reasoning to improve reasoning efficiency by replacing explicit reasoning trajectories with continuous representations in a latent space, yet its effectiveness varies across settings. Analysis of model confidence dynamics under latent reasoning reveals that thinking trajectories ending in incorrect answers contain fewer low-confidence steps than those ending in correct answers. Meanwhile, we suggest that soft embeddings aggregated by multiple low-confidence thinking alternatives may introduce and propagate noise, leading to high confidence in unreliable reasoning trajectories. Motivated by these observations, ThinkRouter, an inference-time confidence-aware routing mechanism is proposed to avoid high confidence and noise for efficient reasoning. ThinkRouter routes thinking to the discrete token space when model confidence is low, and to the latent space otherwise. Extensive experiments on STEM reasoning and coding benchmarks across diverse large reasoning models demonstrate that ThinkRouter outperforms explicit CoT, random routing, and latent reasoning baselines in terms of accuracy, achieving an average improvement of 19.70 points in Pass@1, while reducing generation length by up to 15.55%. Further comprehensive analysis reveals that ThinkRouter can calibrate errors arising from explicit CoT and latent reasoning, and accelerates end-of-thinking token generation by globally lowering model confidence.
PDF51February 14, 2026