ChatPaper.aiChatPaper

GlimpRouter: Inferencia Colaborativa Eficiente mediante la Observación de un Token de Pensamientos

GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

January 8, 2026
Autores: Wenhao Zeng, Xuteng Zhang, Yuling Shi, Chao Hu, Yuting Chen, Beijun Shen, Xiaodong Gu
cs.AI

Resumen

Los Modelos de Razonamiento de Gran Escala (LRM) logran un rendimiento notable al generar explícitamente cadenas de pensamiento de múltiples pasos, pero esta capacidad conlleva una latencia de inferencia y un coste computacional sustanciales. La inferencia colaborativa ofrece una solución prometedora al asignar selectivamente el trabajo entre modelos ligeros y grandes, aunque persiste un desafío fundamental: determinar cuándo un paso de razonamiento requiere la capacidad de un modelo grande o la eficiencia de uno pequeño. Las estrategias de enrutamiento existentes se basan en probabilidades locales de tokens o en verificación posterior, lo que introduce una sobrecarga significativa en la inferencia. En este trabajo, proponemos una nueva perspectiva sobre la colaboración paso a paso: la dificultad de un paso de razonamiento puede inferirse a partir de su primer token. Inspirados por el fenómeno del "Momento Ajá" en los LRM, demostramos que la entropía del token inicial sirve como un fuerte predictor de la dificultad del paso. Basándonos en esta idea, presentamos GlimpRouter, un marco de colaboración paso a paso que no requiere entrenamiento. GlimpRouter emplea un modelo ligero para generar únicamente el primer token de cada paso de razonamiento y deriva el paso a un modelo más grande solo cuando la entropía del token inicial supera un umbral. Los experimentos en múltiples benchmarks demuestran que nuestro enfoque reduce significativamente la latencia de inferencia mientras preserva la precisión. Por ejemplo, GlimpRouter logra una mejora sustancial del 10.7% en precisión mientras reduce la latencia de inferencia en un 25.9% en comparación con un modelo grande independiente en AIME25. Estos resultados sugieren un mecanismo simple pero efectivo para el razonamiento: asignar el cómputo basándose en un vistazo del pensamiento en lugar de una evaluación completa del paso.
English
Large Reasoning Models (LRMs) achieve remarkable performance by explicitly generating multi-step chains of thought, but this capability incurs substantial inference latency and computational cost. Collaborative inference offers a promising solution by selectively allocating work between lightweight and large models, yet a fundamental challenge remains: determining when a reasoning step requires the capacity of a large model or the efficiency of a small model. Existing routing strategies either rely on local token probabilities or post-hoc verification, introducing significant inference overhead. In this work, we propose a novel perspective on step-wise collaboration: the difficulty of a reasoning step can be inferred from its very first token. Inspired by the "Aha Moment" phenomenon in LRMs, we show that the entropy of the initial token serves as a strong predictor of step difficulty. Building on this insight, we introduce GlimpRouter, a training-free step-wise collaboration framework. GlimpRouter employs a lightweight model to generate only the first token of each reasoning step and routes the step to a larger model only when the initial token entropy exceeds a threshold. Experiments on multiple benchmarks demonstrate that our approach significantly reduces inference latency while preserving accuracy. For instance, GlimpRouter attains a substantial 10.7% improvement in accuracy while reducing inference latency by 25.9% compared to a standalone large model on AIME25. These results suggest a simple yet effective mechanism for reasoning: allocating computation based on a glimpse of thought rather than full-step evaluation.
PDF295January 31, 2026