EAGER: Geração Consciente de Entropia para Escalonamento Adaptativo no Momento da Inferência
EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling
October 13, 2025
Autores: Daniel Scalena, Leonidas Zotos, Elisabetta Fersini, Malvina Nissim, Ahmet Üstün
cs.AI
Resumo
Com o surgimento de modelos de linguagem de raciocínio e métodos de escalonamento em tempo de teste como um paradigma para melhorar o desempenho dos modelos, frequentemente é necessário um volume substancial de computação para gerar múltiplas sequências candidatas a partir do mesmo prompt. Isso permite a exploração de diferentes caminhos de raciocínio em direção à solução correta, mas aloca o mesmo orçamento de computação para cada prompt. Baseados na suposição de que diferentes prompts carregam diferentes graus de complexidade e, portanto, necessidades de computação distintas, propomos o EAGer, um método de geração sem treinamento que aproveita a incerteza do modelo por meio da distribuição de entropia por token para reduzir a computação redundante e, simultaneamente, melhorar o desempenho geral. O EAGer permite a ramificação para múltiplos caminhos de raciocínio apenas na presença de tokens de alta entropia e, em seguida, realoca o orçamento de computação economizado para as instâncias onde a exploração de caminhos alternativos é mais necessária. Descobrimos que, em vários modelos de código aberto em benchmarks de raciocínio complexo, como o AIME 2025, o EAGer pode realocar o orçamento sem acessar rótulos de destino, alcançando a melhor relação eficiência-desempenho em termos de comprimento de raciocínio e Pass@k. Quando os rótulos de destino estão acessíveis, o EAGer gera até 65% menos tokens (economizando, assim, computação) e alcança uma melhoria de até 37% no Pass@k em comparação com a Amostragem Paralela Completa.
English
With the rise of reasoning language models and test-time scaling methods as a
paradigm for improving model performance, substantial computation is often
required to generate multiple candidate sequences from the same prompt. This
enables exploration of different reasoning paths toward the correct solution,
however, allocates the same compute budget for each prompt. Grounded on the
assumption that different prompts carry different degrees of complexity, and
thus different computation needs, we propose EAGer, a training-free generation
method that leverages model uncertainty through token-wise entropy distribution
to reduce redundant computation and concurrently improve overall performance.
EAGer allows branching to multiple reasoning paths only in the presence of
high-entropy tokens, and then reallocates the saved compute budget to the
instances where exploration of alternative paths is most needed. We find that
across multiple open-source models on complex reasoning benchmarks such as AIME
2025, EAGer can reallocate the budget without accessing target labels,
achieving the best efficiency-performance trade-off in terms of reasoning
length and Pass@k. When target labels are accessible, EAGer generates up to 65%
fewer tokens (hence saving compute) and achieves up to 37% improvement in
Pass@k compared to the Full Parallel Sampling.