EAGER: Geração Consciente de Entropia para Escalonamento Adaptativo no Momento da Inferência

Resumo

Com o surgimento de modelos de linguagem de raciocínio e métodos de escalonamento em tempo de teste como um paradigma para melhorar o desempenho dos modelos, frequentemente é necessário um volume substancial de computação para gerar múltiplas sequências candidatas a partir do mesmo prompt. Isso permite a exploração de diferentes caminhos de raciocínio em direção à solução correta, mas aloca o mesmo orçamento de computação para cada prompt. Baseados na suposição de que diferentes prompts carregam diferentes graus de complexidade e, portanto, necessidades de computação distintas, propomos o EAGer, um método de geração sem treinamento que aproveita a incerteza do modelo por meio da distribuição de entropia por token para reduzir a computação redundante e, simultaneamente, melhorar o desempenho geral. O EAGer permite a ramificação para múltiplos caminhos de raciocínio apenas na presença de tokens de alta entropia e, em seguida, realoca o orçamento de computação economizado para as instâncias onde a exploração de caminhos alternativos é mais necessária. Descobrimos que, em vários modelos de código aberto em benchmarks de raciocínio complexo, como o AIME 2025, o EAGer pode realocar o orçamento sem acessar rótulos de destino, alcançando a melhor relação eficiência-desempenho em termos de comprimento de raciocínio e Pass@k. Quando os rótulos de destino estão acessíveis, o EAGer gera até 65% menos tokens (economizando, assim, computação) e alcança uma melhoria de até 37% no Pass@k em comparação com a Amostragem Paralela Completa.

English

With the rise of reasoning language models and test-time scaling methods as a paradigm for improving model performance, substantial computation is often required to generate multiple candidate sequences from the same prompt. This enables exploration of different reasoning paths toward the correct solution, however, allocates the same compute budget for each prompt. Grounded on the assumption that different prompts carry different degrees of complexity, and thus different computation needs, we propose EAGer, a training-free generation method that leverages model uncertainty through token-wise entropy distribution to reduce redundant computation and concurrently improve overall performance. EAGer allows branching to multiple reasoning paths only in the presence of high-entropy tokens, and then reallocates the saved compute budget to the instances where exploration of alternative paths is most needed. We find that across multiple open-source models on complex reasoning benchmarks such as AIME 2025, EAGer can reallocate the budget without accessing target labels, achieving the best efficiency-performance trade-off in terms of reasoning length and Pass@k. When target labels are accessible, EAGer generates up to 65% fewer tokens (hence saving compute) and achieves up to 37% improvement in Pass@k compared to the Full Parallel Sampling.

EAGER: Geração Consciente de Entropia para Escalonamento Adaptativo no Momento da Inferência

EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling

Resumo

Support