EAGER : Génération Consciente de l'Entropie pour une Mise à l'Échelle Adaptative au Moment de l'Inférence

papers.abstract

Avec l'essor des modèles de langage à raisonnement et des méthodes de mise à l'échelle au moment du test comme paradigme pour améliorer les performances des modèles, une quantité substantielle de calcul est souvent nécessaire pour générer plusieurs séquences candidates à partir de la même instruction. Cela permet d'explorer différents chemins de raisonnement vers la solution correcte, mais alloue le même budget de calcul pour chaque instruction. En partant de l'hypothèse que différentes instructions présentent des degrés de complexité variables, et donc des besoins de calcul différents, nous proposons EAGer, une méthode de génération sans apprentissage qui exploite l'incertitude du modèle à travers la distribution d'entropie par token pour réduire les calculs redondants et améliorer simultanément les performances globales. EAGer permet de bifurquer vers plusieurs chemins de raisonnement uniquement en présence de tokens à haute entropie, puis réalloue le budget de calcul économisé aux instances où l'exploration de chemins alternatifs est la plus nécessaire. Nous constatons que, sur plusieurs modèles open-source dans des benchmarks de raisonnement complexe tels que AIME 2025, EAGer peut réallouer le budget sans accéder aux étiquettes cibles, atteignant le meilleur compromis efficacité-performance en termes de longueur de raisonnement et Pass@k. Lorsque les étiquettes cibles sont accessibles, EAGer génère jusqu'à 65 % de tokens en moins (économisant ainsi des calculs) et améliore jusqu'à 37 % le Pass@k par rapport à l'échantillonnage parallèle complet.

English

With the rise of reasoning language models and test-time scaling methods as a paradigm for improving model performance, substantial computation is often required to generate multiple candidate sequences from the same prompt. This enables exploration of different reasoning paths toward the correct solution, however, allocates the same compute budget for each prompt. Grounded on the assumption that different prompts carry different degrees of complexity, and thus different computation needs, we propose EAGer, a training-free generation method that leverages model uncertainty through token-wise entropy distribution to reduce redundant computation and concurrently improve overall performance. EAGer allows branching to multiple reasoning paths only in the presence of high-entropy tokens, and then reallocates the saved compute budget to the instances where exploration of alternative paths is most needed. We find that across multiple open-source models on complex reasoning benchmarks such as AIME 2025, EAGer can reallocate the budget without accessing target labels, achieving the best efficiency-performance trade-off in terms of reasoning length and Pass@k. When target labels are accessible, EAGer generates up to 65% fewer tokens (hence saving compute) and achieves up to 37% improvement in Pass@k compared to the Full Parallel Sampling.

EAGER : Génération Consciente de l'Entropie pour une Mise à l'Échelle Adaptative au Moment de l'Inférence

EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling

papers.abstract

Support