GlimpRouter: 思考トークンの一瞥による効率的な協調推論
GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts
January 8, 2026
著者: Wenhao Zeng, Xuteng Zhang, Yuling Shi, Chao Hu, Yuting Chen, Beijun Shen, Xiaodong Gu
cs.AI
要旨
大規模推論モデル(LRM)は、明示的に多段階の思考連鎖を生成することで顕著な性能を達成するが、この能力には大幅な推論遅延と計算コストが伴う。協調推論は、軽量モデルと大規模モデルの間で作業を選択的に割り当てることで有望な解決策を提供するが、根本的な課題が残っている:どの推論ステップが大規模モデルの能力を必要とし、どのステップが小型モデルの効率性で足りるかの判断である。既存の経路選択戦略は、局所的なトークン確率に依存するか、事後的検証を行うため、大きな推論オーバーヘッドを導入する。本研究では、ステップ単位の協調に対する新たな視点を提案する:推論ステップの難易度は、その最初のトークンから推測可能であるという。LRMにおける「閃きの瞬間」現象に着想を得て、初期トークンのエントロピーがステップの難易度を強力に予測できることを示す。この知見に基づき、訓練不要のステップ単位協調フレームワークであるGlimpRouterを導入する。GlimpRouterは軽量モデルを用いて各推論ステップの最初のトークンのみを生成し、初期トークンのエントロピーが閾値を超えた場合にのみ、そのステップを大規模モデルに振り分ける。複数のベンチマークによる実験により、本手法が推論精度を維持しつつ推論遅延を大幅に削減できることを実証する。例えばGlimpRouterは、AIME25において単体の大規模モデルと比較して精度を10.7%大幅に向上させるとともに、推論遅延を25.9%削減する。これらの結果は、思考の全体評価ではなく「一瞥」に基づいて計算リソースを割り当てるという、簡潔かつ効果的な推論メカニズムの可能性を示唆する。
English
Large Reasoning Models (LRMs) achieve remarkable performance by explicitly generating multi-step chains of thought, but this capability incurs substantial inference latency and computational cost. Collaborative inference offers a promising solution by selectively allocating work between lightweight and large models, yet a fundamental challenge remains: determining when a reasoning step requires the capacity of a large model or the efficiency of a small model. Existing routing strategies either rely on local token probabilities or post-hoc verification, introducing significant inference overhead. In this work, we propose a novel perspective on step-wise collaboration: the difficulty of a reasoning step can be inferred from its very first token. Inspired by the "Aha Moment" phenomenon in LRMs, we show that the entropy of the initial token serves as a strong predictor of step difficulty. Building on this insight, we introduce GlimpRouter, a training-free step-wise collaboration framework. GlimpRouter employs a lightweight model to generate only the first token of each reasoning step and routes the step to a larger model only when the initial token entropy exceeds a threshold. Experiments on multiple benchmarks demonstrate that our approach significantly reduces inference latency while preserving accuracy. For instance, GlimpRouter attains a substantial 10.7% improvement in accuracy while reducing inference latency by 25.9% compared to a standalone large model on AIME25. These results suggest a simple yet effective mechanism for reasoning: allocating computation based on a glimpse of thought rather than full-step evaluation.