EAGER : Génération Consciente de l'Entropie pour une Mise à l'Échelle Adaptative au Moment de l'Inférence
EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling
October 13, 2025
papers.authors: Daniel Scalena, Leonidas Zotos, Elisabetta Fersini, Malvina Nissim, Ahmet Üstün
cs.AI
papers.abstract
Avec l'essor des modèles de langage à raisonnement et des méthodes de mise à l'échelle au moment du test comme paradigme pour améliorer les performances des modèles, une quantité substantielle de calcul est souvent nécessaire pour générer plusieurs séquences candidates à partir de la même instruction. Cela permet d'explorer différents chemins de raisonnement vers la solution correcte, mais alloue le même budget de calcul pour chaque instruction. En partant de l'hypothèse que différentes instructions présentent des degrés de complexité variables, et donc des besoins de calcul différents, nous proposons EAGer, une méthode de génération sans apprentissage qui exploite l'incertitude du modèle à travers la distribution d'entropie par token pour réduire les calculs redondants et améliorer simultanément les performances globales. EAGer permet de bifurquer vers plusieurs chemins de raisonnement uniquement en présence de tokens à haute entropie, puis réalloue le budget de calcul économisé aux instances où l'exploration de chemins alternatifs est la plus nécessaire. Nous constatons que, sur plusieurs modèles open-source dans des benchmarks de raisonnement complexe tels que AIME 2025, EAGer peut réallouer le budget sans accéder aux étiquettes cibles, atteignant le meilleur compromis efficacité-performance en termes de longueur de raisonnement et Pass@k. Lorsque les étiquettes cibles sont accessibles, EAGer génère jusqu'à 65 % de tokens en moins (économisant ainsi des calculs) et améliore jusqu'à 37 % le Pass@k par rapport à l'échantillonnage parallèle complet.
English
With the rise of reasoning language models and test-time scaling methods as a
paradigm for improving model performance, substantial computation is often
required to generate multiple candidate sequences from the same prompt. This
enables exploration of different reasoning paths toward the correct solution,
however, allocates the same compute budget for each prompt. Grounded on the
assumption that different prompts carry different degrees of complexity, and
thus different computation needs, we propose EAGer, a training-free generation
method that leverages model uncertainty through token-wise entropy distribution
to reduce redundant computation and concurrently improve overall performance.
EAGer allows branching to multiple reasoning paths only in the presence of
high-entropy tokens, and then reallocates the saved compute budget to the
instances where exploration of alternative paths is most needed. We find that
across multiple open-source models on complex reasoning benchmarks such as AIME
2025, EAGer can reallocate the budget without accessing target labels,
achieving the best efficiency-performance trade-off in terms of reasoning
length and Pass@k. When target labels are accessible, EAGer generates up to 65%
fewer tokens (hence saving compute) and achieves up to 37% improvement in
Pass@k compared to the Full Parallel Sampling.