ChatPaper.aiChatPaper

EAGER: Generación Consciente de Entropía para Escalado Adaptativo en Tiempo de Inferencia

EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling

October 13, 2025
Autores: Daniel Scalena, Leonidas Zotos, Elisabetta Fersini, Malvina Nissim, Ahmet Üstün
cs.AI

Resumen

Con el auge de los modelos de lenguaje de razonamiento y los métodos de escalado en tiempo de prueba como paradigma para mejorar el rendimiento de los modelos, a menudo se requiere un cómputo sustancial para generar múltiples secuencias candidatas a partir de la misma instrucción. Esto permite explorar diferentes caminos de razonamiento hacia la solución correcta, pero asigna el mismo presupuesto de cómputo para cada instrucción. Basándonos en la suposición de que diferentes instrucciones tienen distintos grados de complejidad y, por lo tanto, diferentes necesidades de cómputo, proponemos EAGer, un método de generación sin entrenamiento que aprovecha la incertidumbre del modelo a través de la distribución de entropía por token para reducir el cómputo redundante y, al mismo tiempo, mejorar el rendimiento general. EAGer permite ramificarse hacia múltiples caminos de razonamiento solo en presencia de tokens de alta entropía, y luego reasigna el presupuesto de cómputo ahorrado a los casos donde la exploración de caminos alternativos es más necesaria. Encontramos que, en múltiples modelos de código abierto en benchmarks de razonamiento complejo como AIME 2025, EAGer puede reasignar el presupuesto sin acceder a las etiquetas objetivo, logrando el mejor equilibrio entre eficiencia y rendimiento en términos de longitud de razonamiento y Pass@k. Cuando las etiquetas objetivo son accesibles, EAGer genera hasta un 65% menos de tokens (ahorrando así cómputo) y logra una mejora de hasta un 37% en Pass@k en comparación con el Muestreo Paralelo Completo.
English
With the rise of reasoning language models and test-time scaling methods as a paradigm for improving model performance, substantial computation is often required to generate multiple candidate sequences from the same prompt. This enables exploration of different reasoning paths toward the correct solution, however, allocates the same compute budget for each prompt. Grounded on the assumption that different prompts carry different degrees of complexity, and thus different computation needs, we propose EAGer, a training-free generation method that leverages model uncertainty through token-wise entropy distribution to reduce redundant computation and concurrently improve overall performance. EAGer allows branching to multiple reasoning paths only in the presence of high-entropy tokens, and then reallocates the saved compute budget to the instances where exploration of alternative paths is most needed. We find that across multiple open-source models on complex reasoning benchmarks such as AIME 2025, EAGer can reallocate the budget without accessing target labels, achieving the best efficiency-performance trade-off in terms of reasoning length and Pass@k. When target labels are accessible, EAGer generates up to 65% fewer tokens (hence saving compute) and achieves up to 37% improvement in Pass@k compared to the Full Parallel Sampling.
PDF12October 16, 2025