EAGER: Энтропийно-осознанная генерация для адаптивного масштабирования на этапе вывода

Аннотация

С ростом популярности языковых моделей, способных к рассуждению, и методов масштабирования на этапе тестирования как парадигмы для повышения производительности моделей, часто требуется значительный объем вычислений для генерации нескольких кандидатных последовательностей из одного и того же запроса. Это позволяет исследовать различные пути рассуждений для достижения правильного решения, однако выделяет одинаковый бюджет вычислений для каждого запроса. Основываясь на предположении, что разные запросы обладают разной степенью сложности и, следовательно, разными потребностями в вычислениях, мы предлагаем EAGer — метод генерации, не требующий обучения, который использует неопределенность модели через распределение энтропии на уровне токенов для сокращения избыточных вычислений и одновременного повышения общей производительности. EAGer позволяет ветвиться на несколько путей рассуждений только при наличии токенов с высокой энтропией, а затем перераспределяет сэкономленный бюджет вычислений на те случаи, где исследование альтернативных путей наиболее необходимо. Мы обнаружили, что на множестве моделей с открытым исходным кодом на сложных тестах на рассуждение, таких как AIME 2025, EAGer может перераспределять бюджет без доступа к целевым меткам, достигая наилучшего компромисса между эффективностью и производительностью с точки зрения длины рассуждений и Pass@k. Когда целевые метки доступны, EAGer генерирует до 65% меньше токенов (тем самым экономя вычисления) и достигает улучшения в Pass@k до 37% по сравнению с методом Full Parallel Sampling.

English

With the rise of reasoning language models and test-time scaling methods as a paradigm for improving model performance, substantial computation is often required to generate multiple candidate sequences from the same prompt. This enables exploration of different reasoning paths toward the correct solution, however, allocates the same compute budget for each prompt. Grounded on the assumption that different prompts carry different degrees of complexity, and thus different computation needs, we propose EAGer, a training-free generation method that leverages model uncertainty through token-wise entropy distribution to reduce redundant computation and concurrently improve overall performance. EAGer allows branching to multiple reasoning paths only in the presence of high-entropy tokens, and then reallocates the saved compute budget to the instances where exploration of alternative paths is most needed. We find that across multiple open-source models on complex reasoning benchmarks such as AIME 2025, EAGer can reallocate the budget without accessing target labels, achieving the best efficiency-performance trade-off in terms of reasoning length and Pass@k. When target labels are accessible, EAGer generates up to 65% fewer tokens (hence saving compute) and achieves up to 37% improvement in Pass@k compared to the Full Parallel Sampling.

EAGER: Энтропийно-осознанная генерация для адаптивного масштабирования на этапе вывода

EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling

Аннотация

Support