GlimpRouter: Effiziente kollaborative Inferenz durch Erfassen eines Gedankentokens
GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts
January 8, 2026
papers.authors: Wenhao Zeng, Xuteng Zhang, Yuling Shi, Chao Hu, Yuting Chen, Beijun Shen, Xiaodong Gu
cs.AI
papers.abstract
Große Reasoning-Modelle (LRMs) erzielen bemerkenswerte Leistungen durch das explizite Generieren mehrstufiger Gedankenketten, doch diese Fähigkeit verursacht erhebliche Inferenzlatenz und Rechenkosten. Kollaborative Inferenz bietet eine vielversprechende Lösung, indem Arbeit selektiv zwischen leichtgewichtigen und großen Modellen verteilt wird, doch eine grundlegende Herausforderung bleibt bestehen: zu bestimmen, wann ein Reasoning-Schritt die Kapazität eines großen Modells oder die Effizienz eines kleinen Modells erfordert. Bestehende Routing-Strategien verlassen sich entweder auf lokale Token-Wahrscheinlichkeiten oder nachträgliche Verifikation, was erheblichen Inferenz-Overhead verursacht. In dieser Arbeit schlagen wir eine neuartige Perspektive für schrittweise Kollaboration vor: Die Schwierigkeit eines Reasoning-Schritts lässt sich bereits anhand seines allerersten Tokens ableiten. Inspiriert durch das "Aha-Moment"-Phänomen in LRMs zeigen wir, dass die Entropie des initialen Tokens ein starker Prädiktor für die Schritt-Schwierigkeit ist. Aufbauend auf dieser Erkenntnis stellen wir GlimpRouter vor, ein trainierungsfreies, schrittweises Kollaborationsframework. GlimpRouter verwendet ein leichtgewichtiges Modell, um nur den ersten Token jedes Reasoning-Schritts zu generieren, und leitet den Schritt nur dann an ein größeres Modell weiter, wenn die anfängliche Token-Entropie einen Schwellenwert überschreitet. Experimente auf mehreren Benchmarks demonstrieren, dass unser Ansatz die Inferenzlatenz signifikant reduziert und gleichzeitig die Genauigkeit erhält. Beispielsweise erzielt GlimpRouter auf AIME25 eine substantielle Verbesserung der Genauigkeit um 10,7 % bei gleichzeitiger Reduzierung der Inferenzlatenz um 25,9 % im Vergleich zu einem eigenständigen großen Modell. Diese Ergebnisse deuten auf einen einfachen, aber effektiven Mechanismus für Reasoning hin: Die Zuteilung von Rechenressourcen basierend auf einem flüchtigen Eindruck des Gedankens anstelle einer vollständigen Schrittbewertung.
English
Large Reasoning Models (LRMs) achieve remarkable performance by explicitly generating multi-step chains of thought, but this capability incurs substantial inference latency and computational cost. Collaborative inference offers a promising solution by selectively allocating work between lightweight and large models, yet a fundamental challenge remains: determining when a reasoning step requires the capacity of a large model or the efficiency of a small model. Existing routing strategies either rely on local token probabilities or post-hoc verification, introducing significant inference overhead. In this work, we propose a novel perspective on step-wise collaboration: the difficulty of a reasoning step can be inferred from its very first token. Inspired by the "Aha Moment" phenomenon in LRMs, we show that the entropy of the initial token serves as a strong predictor of step difficulty. Building on this insight, we introduce GlimpRouter, a training-free step-wise collaboration framework. GlimpRouter employs a lightweight model to generate only the first token of each reasoning step and routes the step to a larger model only when the initial token entropy exceeds a threshold. Experiments on multiple benchmarks demonstrate that our approach significantly reduces inference latency while preserving accuracy. For instance, GlimpRouter attains a substantial 10.7% improvement in accuracy while reducing inference latency by 25.9% compared to a standalone large model on AIME25. These results suggest a simple yet effective mechanism for reasoning: allocating computation based on a glimpse of thought rather than full-step evaluation.