ChatPaper.aiChatPaper

GlimpRouter: Inferência Colaborativa Eficiente através da Observação de um Token de Pensamentos

GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

January 8, 2026
Autores: Wenhao Zeng, Xuteng Zhang, Yuling Shi, Chao Hu, Yuting Chen, Beijun Shen, Xiaodong Gu
cs.AI

Resumo

Os Grandes Modelos de Raciocínio (LRMs) alcançam desempenho notável ao gerar explicitamente cadeias de pensamento de múltiplos passos, mas essa capacidade incorre em latência de inferência e custo computacional substanciais. A inferência colaborativa oferece uma solução promissora ao alocar seletivamente o trabalho entre modelos leves e grandes, mas um desafio fundamental permanece: determinar quando uma etapa de raciocínio exige a capacidade de um modelo grande ou a eficiência de um modelo pequeno. As estratégias de roteamento existentes dependem de probabilidades locais de tokens ou de verificação a posteriori, introduzindo sobrecarga significativa de inferência. Neste trabalho, propomos uma nova perspectiva sobre a colaboração passo a passo: a dificuldade de uma etapa de raciocínio pode ser inferida a partir do seu primeiro token. Inspirados pelo fenômeno do "Momento Eureka" nos LRMs, mostramos que a entropia do token inicial serve como um forte preditor da dificuldade da etapa. Com base nessa percepção, introduzimos o GlimpRouter, uma estrutura de colaboração passo a passo sem necessidade de treinamento. O GlimpRouter emprega um modelo leve para gerar apenas o primeiro token de cada etapa de raciocínio e encaminha a etapa para um modelo maior apenas quando a entropia do token inicial excede um limite. Experimentos em múltiplos benchmarks demonstram que nossa abordagem reduz significativamente a latência de inferência enquanto preserva a precisão. Por exemplo, o GlimpRouter atinge uma melhoria substancial de 10,7% na precisão enquanto reduz a latência de inferência em 25,9% em comparação com um modelo grande independente no AIME25. Esses resultados sugerem um mecanismo simples, porém eficaz, para o raciocínio: alocar computação com base em um vislumbre do pensamento, em vez de uma avaliação da etapa completa.
English
Large Reasoning Models (LRMs) achieve remarkable performance by explicitly generating multi-step chains of thought, but this capability incurs substantial inference latency and computational cost. Collaborative inference offers a promising solution by selectively allocating work between lightweight and large models, yet a fundamental challenge remains: determining when a reasoning step requires the capacity of a large model or the efficiency of a small model. Existing routing strategies either rely on local token probabilities or post-hoc verification, introducing significant inference overhead. In this work, we propose a novel perspective on step-wise collaboration: the difficulty of a reasoning step can be inferred from its very first token. Inspired by the "Aha Moment" phenomenon in LRMs, we show that the entropy of the initial token serves as a strong predictor of step difficulty. Building on this insight, we introduce GlimpRouter, a training-free step-wise collaboration framework. GlimpRouter employs a lightweight model to generate only the first token of each reasoning step and routes the step to a larger model only when the initial token entropy exceeds a threshold. Experiments on multiple benchmarks demonstrate that our approach significantly reduces inference latency while preserving accuracy. For instance, GlimpRouter attains a substantial 10.7% improvement in accuracy while reducing inference latency by 25.9% compared to a standalone large model on AIME25. These results suggest a simple yet effective mechanism for reasoning: allocating computation based on a glimpse of thought rather than full-step evaluation.
PDF295March 16, 2026