GlimpRouter: Efficiënte Collaboratieve Inferentie door Eén Gedachte-Token te Gluren
GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts
January 8, 2026
Auteurs: Wenhao Zeng, Xuteng Zhang, Yuling Shi, Chao Hu, Yuting Chen, Beijun Shen, Xiaodong Gu
cs.AI
Samenvatting
Grote Redeneermodellen (LRM's) bereiken opmerkelijke prestaties door expliciet meerstaps ketens van gedachten te genereren, maar deze capaciteit gaat gepaard met aanzienlijke inferentielatentie en rekenkosten. Collaboratieve inferentie biedt een veelbelovende oplossing door werk selectief toe te wijzen tussen lichtgewicht en grote modellen, maar een fundamentele uitdaging blijft bestaan: bepalen wanneer een redeneerstap de capaciteit van een groot model of de efficiëntie van een klein model vereist. Bestaande routeringsstrategieën vertrouwen op lokale tokenwaarschijnlijkheden of post-hoc-verificatie, wat aanzienlijke inferentie-overhead introduceert. In dit werk stellen we een nieuw perspectief voor op stapsgewijze collaboratie: de moeilijkheidsgraad van een redeneerstap kan worden afgeleid uit het allereerste token. Geïnspireerd door het "Aha-moment"-fenomeen in LRM's, tonen we aan dat de entropie van het initiële token een sterke voorspeller is van stapmoeilijkheid. Op basis van dit inzicht introduceren we GlimpRouter, een trainingsvrij kader voor stapsgewijze collaboratie. GlimpRouter gebruikt een lichtgewicht model om slechts het eerste token van elke redeneerstap te genereren en routeert de stap naar een groter model alleen wanneer de initiële tokenentropie een drempel overschrijdt. Experimenten op meerdere benchmarks tonen aan dat onze aanpak de inferentielatentie significant vermindert terwijl de nauwkeurigheid behouden blijft. GlimpRouter behaalt bijvoorbeeld een substantiële verbetering van 10,7% in nauwkeurigheid terwijl de inferentielatentie met 25,9% wordt verminderd vergeleken met een standalone groot model op AIME25. Deze resultaten suggereren een eenvoudig maar effectief mechanisme voor redeneren: rekencapaciteit toewijzen op basis van een glimp van de gedachte in plaats van een volledige stapevaluatie.
English
Large Reasoning Models (LRMs) achieve remarkable performance by explicitly generating multi-step chains of thought, but this capability incurs substantial inference latency and computational cost. Collaborative inference offers a promising solution by selectively allocating work between lightweight and large models, yet a fundamental challenge remains: determining when a reasoning step requires the capacity of a large model or the efficiency of a small model. Existing routing strategies either rely on local token probabilities or post-hoc verification, introducing significant inference overhead. In this work, we propose a novel perspective on step-wise collaboration: the difficulty of a reasoning step can be inferred from its very first token. Inspired by the "Aha Moment" phenomenon in LRMs, we show that the entropy of the initial token serves as a strong predictor of step difficulty. Building on this insight, we introduce GlimpRouter, a training-free step-wise collaboration framework. GlimpRouter employs a lightweight model to generate only the first token of each reasoning step and routes the step to a larger model only when the initial token entropy exceeds a threshold. Experiments on multiple benchmarks demonstrate that our approach significantly reduces inference latency while preserving accuracy. For instance, GlimpRouter attains a substantial 10.7% improvement in accuracy while reducing inference latency by 25.9% compared to a standalone large model on AIME25. These results suggest a simple yet effective mechanism for reasoning: allocating computation based on a glimpse of thought rather than full-step evaluation.