GlimpRouter : Inférence collaborative efficace en apercevant un jeton de pensée
GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts
January 8, 2026
papers.authors: Wenhao Zeng, Xuteng Zhang, Yuling Shi, Chao Hu, Yuting Chen, Beijun Shen, Xiaodong Gu
cs.AI
papers.abstract
Les grands modèles de raisonnement (Large Reasoning Models - LRMs) obtiennent des performances remarquables en générant explicitement des chaînes de pensée à plusieurs étapes, mais cette capacité entraîne une latence d'inférence et un coût computationnel substantiels. L'inférence collaborative offre une solution prometteuse en allouant sélectivement le travail entre des modèles légers et de grands modèles, mais un défi fondamental persiste : déterminer quand une étape de raisonnement nécessite la capacité d'un grand modèle ou l'efficacité d'un petit modèle. Les stratégies de routage existantes reposent soit sur des probabilités locales de tokens, soit sur une vérification a posteriori, introduisant une surcharge d'inférence significative. Dans ce travail, nous proposons une nouvelle perspective sur la collaboration étape par étape : la difficulté d'une étape de raisonnement peut être déduite dès son tout premier token. Inspirés par le phénomène de "l'eurêka" (Aha Moment) dans les LRMs, nous montrons que l'entropie du token initial sert de prédicteur robuste de la difficulté de l'étape. Sur la base de cette intuition, nous présentons GlimpRouter, un cadre de collaboration étape par étape ne nécessitant pas d'entraînement. GlimpRouter utilise un modèle léger pour générer uniquement le premier token de chaque étape de raisonnement et achemine l'étape vers un modèle plus grand uniquement lorsque l'entropie du token initial dépasse un seuil. Les expériences sur plusieurs benchmarks démontrent que notre approche réduit significativement la latence d'inférence tout en préservant la précision. Par exemple, GlimpRouter atteint une amélioration substantielle de 10,7 % en précision tout en réduisant la latence d'inférence de 25,9 % par rapport à un grand modèle autonome sur AIME25. Ces résultats suggèrent un mécanisme de raisonnement simple mais efficace : allouer le calcul sur la base d'un aperçu de la pensée plutôt que sur une évaluation complète de l'étape.
English
Large Reasoning Models (LRMs) achieve remarkable performance by explicitly generating multi-step chains of thought, but this capability incurs substantial inference latency and computational cost. Collaborative inference offers a promising solution by selectively allocating work between lightweight and large models, yet a fundamental challenge remains: determining when a reasoning step requires the capacity of a large model or the efficiency of a small model. Existing routing strategies either rely on local token probabilities or post-hoc verification, introducing significant inference overhead. In this work, we propose a novel perspective on step-wise collaboration: the difficulty of a reasoning step can be inferred from its very first token. Inspired by the "Aha Moment" phenomenon in LRMs, we show that the entropy of the initial token serves as a strong predictor of step difficulty. Building on this insight, we introduce GlimpRouter, a training-free step-wise collaboration framework. GlimpRouter employs a lightweight model to generate only the first token of each reasoning step and routes the step to a larger model only when the initial token entropy exceeds a threshold. Experiments on multiple benchmarks demonstrate that our approach significantly reduces inference latency while preserving accuracy. For instance, GlimpRouter attains a substantial 10.7% improvement in accuracy while reducing inference latency by 25.9% compared to a standalone large model on AIME25. These results suggest a simple yet effective mechanism for reasoning: allocating computation based on a glimpse of thought rather than full-step evaluation.