GlimpRouter: Inferenza Collaborativa Efficiente mediante l'Accesso a un Token dei Pensieri
GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts
January 8, 2026
Autori: Wenhao Zeng, Xuteng Zhang, Yuling Shi, Chao Hu, Yuting Chen, Beijun Shen, Xiaodong Gu
cs.AI
Abstract
I Large Reasoning Model (LRM) raggiungono prestazioni notevoli generando esplicitamente catene di ragionamento multi-step, ma questa capacità comporta una latenza di inferenza e un costo computazionale sostanziali. L'inferenza collaborativa offre una soluzione promettente allocando selettivamente il lavoro tra modelli leggeri e modelli di grandi dimensioni, tuttavia rimane una sfida fondamentale: determinare quando un passo di ragionamento richiede la capacità di un modello grande o l'efficienza di un modello piccolo. Le strategie di routing esistenti si basano su probabilità locali dei token o su verifiche post-hoc, introducendo un sovraccarico di inferenza significativo. In questo lavoro, proponiamo una nuova prospettiva sulla collaborazione step-by-step: la difficoltà di un passo di ragionamento può essere dedotta dal suo primissimo token. Ispirati dal fenomeno del "Momento Aha" negli LRM, dimostriamo che l'entropia del token iniziale funge da forte predittore della difficoltà dello step. Basandoci su questa intuizione, introduciamo GlimpRouter, un framework di collaborazione step-by-step che non richiede addestramento. GlimpRouter utilizza un modello leggero per generare solo il primo token di ogni passo di ragionamento e instrada lo step a un modello più grande solo quando l'entropia del token iniziale supera una soglia. Esperimenti su molteplici benchmark dimostrano che il nostro approccio riduce significativamente la latenza di inferenza preservando l'accuratezza. Ad esempio, GlimpRouter ottiene un sostanziale miglioramento del 10,7% nell'accuratezza riducendo contemporaneamente la latenza di inferenza del 25,9% rispetto a un modello grande autonomo su AIME25. Questi risultati suggeriscono un meccanismo semplice ma efficace per il ragionamento: allocare il calcolo basandosi su un'anticipazione del pensiero piuttosto che su una valutazione dell'intero step.
English
Large Reasoning Models (LRMs) achieve remarkable performance by explicitly generating multi-step chains of thought, but this capability incurs substantial inference latency and computational cost. Collaborative inference offers a promising solution by selectively allocating work between lightweight and large models, yet a fundamental challenge remains: determining when a reasoning step requires the capacity of a large model or the efficiency of a small model. Existing routing strategies either rely on local token probabilities or post-hoc verification, introducing significant inference overhead. In this work, we propose a novel perspective on step-wise collaboration: the difficulty of a reasoning step can be inferred from its very first token. Inspired by the "Aha Moment" phenomenon in LRMs, we show that the entropy of the initial token serves as a strong predictor of step difficulty. Building on this insight, we introduce GlimpRouter, a training-free step-wise collaboration framework. GlimpRouter employs a lightweight model to generate only the first token of each reasoning step and routes the step to a larger model only when the initial token entropy exceeds a threshold. Experiments on multiple benchmarks demonstrate that our approach significantly reduces inference latency while preserving accuracy. For instance, GlimpRouter attains a substantial 10.7% improvement in accuracy while reducing inference latency by 25.9% compared to a standalone large model on AIME25. These results suggest a simple yet effective mechanism for reasoning: allocating computation based on a glimpse of thought rather than full-step evaluation.