EAGER: Entropie-Bewuste Generatie voor Adaptieve Schaling tijdens Inferentie

Samenvatting

Met de opkomst van redenerende taalmodelen en schaalingsmethoden tijdens het testen als een paradigma voor het verbeteren van modelprestaties, is vaak aanzienlijke rekenkracht nodig om meerdere kandidaatreeksen uit dezelfde prompt te genereren. Dit maakt het mogelijk om verschillende redeneerpaden naar de juiste oplossing te verkennen, maar wijst hetzelfde rekenbudget toe aan elke prompt. Gebaseerd op de aanname dat verschillende prompts verschillende niveaus van complexiteit hebben, en dus verschillende rekenbehoeften, stellen we EAGer voor, een trainingsvrije generatiemethode die modelonzekerheid benut door middel van token-gewijze entropieverdeling om overbodige rekenkracht te verminderen en tegelijkertijd de algehele prestaties te verbeteren. EAGer maakt vertakking naar meerdere redeneerpaden alleen mogelijk in aanwezigheid van tokens met hoge entropie, en herverdeelt vervolgens het bespaarde rekenbudget naar de gevallen waar het verkennen van alternatieve paden het meest nodig is. We ontdekken dat EAGer, over meerdere open-source modellen heen op complexe redeneerbenchmarks zoals AIME 2025, het budget kan herverdelen zonder toegang tot doel-labels, en daarbij de beste efficiëntie-prestatieverhouding bereikt in termen van redeneerlengte en Pass@k. Wanneer doel-labels toegankelijk zijn, genereert EAGer tot 65% minder tokens (en bespaart daarmee rekenkracht) en behaalt het tot 37% verbetering in Pass@k vergeleken met Full Parallel Sampling.

English

With the rise of reasoning language models and test-time scaling methods as a paradigm for improving model performance, substantial computation is often required to generate multiple candidate sequences from the same prompt. This enables exploration of different reasoning paths toward the correct solution, however, allocates the same compute budget for each prompt. Grounded on the assumption that different prompts carry different degrees of complexity, and thus different computation needs, we propose EAGer, a training-free generation method that leverages model uncertainty through token-wise entropy distribution to reduce redundant computation and concurrently improve overall performance. EAGer allows branching to multiple reasoning paths only in the presence of high-entropy tokens, and then reallocates the saved compute budget to the instances where exploration of alternative paths is most needed. We find that across multiple open-source models on complex reasoning benchmarks such as AIME 2025, EAGer can reallocate the budget without accessing target labels, achieving the best efficiency-performance trade-off in terms of reasoning length and Pass@k. When target labels are accessible, EAGer generates up to 65% fewer tokens (hence saving compute) and achieves up to 37% improvement in Pass@k compared to the Full Parallel Sampling.

EAGER: Entropie-Bewuste Generatie voor Adaptieve Schaling tijdens Inferentie

EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling

Samenvatting

Support