ChatPaper.aiChatPaper

GlimpRouter: Эффективный совместный вывод с помощью просмотра одного токена мыслей

GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

January 8, 2026
Авторы: Wenhao Zeng, Xuteng Zhang, Yuling Shi, Chao Hu, Yuting Chen, Beijun Shen, Xiaodong Gu
cs.AI

Аннотация

Крупные модели рассуждений (LRMs) демонстрируют выдающиеся результаты за счёт явного генерации многошаговых цепочек мыслей, однако эта способность сопряжена со значительной задержкой вывода и высокими вычислительными затратами. Коллаборативный вывод предлагает перспективное решение, избирательно распределяя задачи между облегчёнными и крупными моделями, но фундаментальная проблема остаётся: определить, когда шаг рассуждения требует мощности крупной модели, а когда достаточно эффективности малой модели. Существующие стратегии маршрутизации либо полагаются на локальные вероятности токенов, либо на последующую верификацию, что вносит существенные накладные расходы на вывод. В данной работе мы предлагаем новый взгляд на пошаговую коллаборацию: сложность шага рассуждения можно определить по самому первому его токену. Вдохновлённые феноменом "Момента озарения" в LRMs, мы показываем, что энтропия начального токена служит надёжным индикатором сложности шага. Основываясь на этом наблюдении, мы представляем GlimpRouter — бесплатный при обучении фреймворк для пошаговой коллаборации. GlimpRouter использует облегчённую модель для генерации только первого токена каждого шага рассуждения и направляет шаг к крупной модели только в случае, если энтропия начального токена превышает пороговое значение. Эксперименты на нескольких бенчмарках демонстрируют, что наш подход значительно сокращает задержку вывода при сохранении точности. Например, GlimpRouter достигает существенного улучшения точности на 10.7%, одновременно сокращая задержку вывода на 25.9% по сравнению с автономной крупной моделью на AIME25. Эти результаты указывают на простой, но эффективный механизм рассуждений: распределение вычислений на основе беглого взгляда на мысль, а не оценки полного шага.
English
Large Reasoning Models (LRMs) achieve remarkable performance by explicitly generating multi-step chains of thought, but this capability incurs substantial inference latency and computational cost. Collaborative inference offers a promising solution by selectively allocating work between lightweight and large models, yet a fundamental challenge remains: determining when a reasoning step requires the capacity of a large model or the efficiency of a small model. Existing routing strategies either rely on local token probabilities or post-hoc verification, introducing significant inference overhead. In this work, we propose a novel perspective on step-wise collaboration: the difficulty of a reasoning step can be inferred from its very first token. Inspired by the "Aha Moment" phenomenon in LRMs, we show that the entropy of the initial token serves as a strong predictor of step difficulty. Building on this insight, we introduce GlimpRouter, a training-free step-wise collaboration framework. GlimpRouter employs a lightweight model to generate only the first token of each reasoning step and routes the step to a larger model only when the initial token entropy exceeds a threshold. Experiments on multiple benchmarks demonstrate that our approach significantly reduces inference latency while preserving accuracy. For instance, GlimpRouter attains a substantial 10.7% improvement in accuracy while reducing inference latency by 25.9% compared to a standalone large model on AIME25. These results suggest a simple yet effective mechanism for reasoning: allocating computation based on a glimpse of thought rather than full-step evaluation.
PDF295January 31, 2026