ChatPaper.aiChatPaper

EAGER: Generazione Consapevole dell'Entropia per il Ridimensionamento Adattivo al Momento dell'Inferenza

EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling

October 13, 2025
Autori: Daniel Scalena, Leonidas Zotos, Elisabetta Fersini, Malvina Nissim, Ahmet Üstün
cs.AI

Abstract

Con l'ascesa dei modelli linguistici di ragionamento e dei metodi di scalatura al momento del test come paradigma per migliorare le prestazioni del modello, spesso è richiesta una notevole quantità di calcolo per generare più sequenze candidate a partire dallo stesso prompt. Ciò consente l'esplorazione di diversi percorsi di ragionamento verso la soluzione corretta, ma assegna lo stesso budget computazionale per ogni prompt. Basandoci sull'assunzione che prompt diversi presentano diversi gradi di complessità e, di conseguenza, diverse esigenze computazionali, proponiamo EAGer, un metodo di generazione senza addestramento che sfrutta l'incertezza del modello attraverso la distribuzione dell'entropia a livello di token per ridurre il calcolo ridondante e migliorare contemporaneamente le prestazioni complessive. EAGer consente di diramarsi in più percorsi di ragionamento solo in presenza di token ad alta entropia, per poi riallocare il budget computazionale risparmiato alle istanze in cui l'esplorazione di percorsi alternativi è più necessaria. Abbiamo riscontrato che, su più modelli open-source in benchmark di ragionamento complesso come AIME 2025, EAGer può riallocare il budget senza accedere alle etichette target, ottenendo il miglior compromesso efficienza-prestazioni in termini di lunghezza del ragionamento e Pass@k. Quando le etichette target sono accessibili, EAGer genera fino al 65% in meno di token (risparmiando così calcolo) e migliora fino al 37% in Pass@k rispetto al Full Parallel Sampling.
English
With the rise of reasoning language models and test-time scaling methods as a paradigm for improving model performance, substantial computation is often required to generate multiple candidate sequences from the same prompt. This enables exploration of different reasoning paths toward the correct solution, however, allocates the same compute budget for each prompt. Grounded on the assumption that different prompts carry different degrees of complexity, and thus different computation needs, we propose EAGer, a training-free generation method that leverages model uncertainty through token-wise entropy distribution to reduce redundant computation and concurrently improve overall performance. EAGer allows branching to multiple reasoning paths only in the presence of high-entropy tokens, and then reallocates the saved compute budget to the instances where exploration of alternative paths is most needed. We find that across multiple open-source models on complex reasoning benchmarks such as AIME 2025, EAGer can reallocate the budget without accessing target labels, achieving the best efficiency-performance trade-off in terms of reasoning length and Pass@k. When target labels are accessible, EAGer generates up to 65% fewer tokens (hence saving compute) and achieves up to 37% improvement in Pass@k compared to the Full Parallel Sampling.
PDF12October 16, 2025