ChatPaper.aiChatPaper

GlimpRouter: 사고 토큰 하나를 엿보는 효율적인 협력 추론

GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

January 8, 2026
저자: Wenhao Zeng, Xuteng Zhang, Yuling Shi, Chao Hu, Yuting Chen, Beijun Shen, Xiaodong Gu
cs.AI

초록

대규모 추론 모델(LRMs)은 명시적으로 다단계 사고 사슬을 생성함으로써 뛰어난 성능을 달성하지만, 이러한 능력은 상당한 추론 지연 시간과 계산 비용을 수반합니다. 협력적 추론은 경량 모델과 대형 모델 간에 작업을 선택적으로 할당하는 유망한 해결책을 제공하지만, 근본적인 과제는 여전히 남아 있습니다: 즉, 어떤 추론 단계에서 대형 모델의 역량이 필요한지, 아니면 소형 모델의 효율성으로 충분한지를 판단하는 문제입니다. 기존의 라우팅 전략은 지역적 토큰 확률이나 사후 검증에 의존하여 상당한 추론 오버헤드를 초래합니다. 본 연구에서는 단계별 협력에 대한 새로운 관점을 제안합니다: 추론 단계의 난이도는 해당 단계의 첫 번째 토큰에서 추론될 수 있다는 것입니다. LRMs의 "Aha Moment" 현상에서 영감을 받아, 초기 토큰의 엔트로피가 단계 난이도의 강력한 예측 인자가 됨을 보여줍니다. 이러한 통찰을 바탕으로, 학습이 필요 없는 단계별 협력 프레임워크인 GlimpRouter를 소개합니다. GlimpRouter는 경량 모델을 사용하여 각 추론 단계의 첫 번째 토큰만 생성하고, 초기 토큰 엔트로피가 임계값을 초과할 때만 해당 단계를 더 큰 모델로 라우팅합니다. 다중 벤치마크에서의 실험 결과, 본 접근법이 정확도를 유지하면서 추론 지연 시간을 현저히 단축함을 입증했습니다. 예를 들어, GlimpRouter는 AIME25에서 단독 대형 모델 대비 정확도는 10.7% 크게 향상시키면서 추론 지연 시간은 25.9% 줄였습니다. 이러한 결과는 전체 단계 평가가 아닌 사고의 일부를 엿보는 것만으로 계산을 할당하는 단순하면서도 효과적인 추론 메커니즘의 가능성을 시사합니다.
English
Large Reasoning Models (LRMs) achieve remarkable performance by explicitly generating multi-step chains of thought, but this capability incurs substantial inference latency and computational cost. Collaborative inference offers a promising solution by selectively allocating work between lightweight and large models, yet a fundamental challenge remains: determining when a reasoning step requires the capacity of a large model or the efficiency of a small model. Existing routing strategies either rely on local token probabilities or post-hoc verification, introducing significant inference overhead. In this work, we propose a novel perspective on step-wise collaboration: the difficulty of a reasoning step can be inferred from its very first token. Inspired by the "Aha Moment" phenomenon in LRMs, we show that the entropy of the initial token serves as a strong predictor of step difficulty. Building on this insight, we introduce GlimpRouter, a training-free step-wise collaboration framework. GlimpRouter employs a lightweight model to generate only the first token of each reasoning step and routes the step to a larger model only when the initial token entropy exceeds a threshold. Experiments on multiple benchmarks demonstrate that our approach significantly reduces inference latency while preserving accuracy. For instance, GlimpRouter attains a substantial 10.7% improvement in accuracy while reducing inference latency by 25.9% compared to a standalone large model on AIME25. These results suggest a simple yet effective mechanism for reasoning: allocating computation based on a glimpse of thought rather than full-step evaluation.
PDF295January 31, 2026