EAGER: Entropy-bewusste Generierung für adaptive Skalierung zur Inferenzzeit

papers.abstract

Mit dem Aufstieg von Reasoning-Sprachmodellen und Test-Time-Scaling-Methoden als Paradigma zur Verbesserung der Modellleistung ist oft ein erheblicher Rechenaufwand erforderlich, um mehrere Kandidatensequenzen aus demselben Prompt zu generieren. Dies ermöglicht die Exploration verschiedener Lösungswege zur korrekten Lösung, weist jedoch jedem Prompt das gleiche Rechenbudget zu. Basierend auf der Annahme, dass verschiedene Prompts unterschiedliche Komplexitätsgrade und somit unterschiedliche Rechenanforderungen aufweisen, schlagen wir EAGer vor, eine trainingsfreie Generierungsmethode, die die Modellunsicherheit durch tokenweise Entropieverteilung nutzt, um redundante Berechnungen zu reduzieren und gleichzeitig die Gesamtleistung zu verbessern. EAGer ermöglicht das Verzweigen in mehrere Lösungswege nur bei Vorhandensein von Tokens mit hoher Entropie und reallokiert das eingesparte Rechenbudget dann auf die Instanzen, in denen die Exploration alternativer Pfade am dringendsten benötigt wird. Wir stellen fest, dass EAGer über mehrere Open-Source-Modelle hinweg auf komplexen Reasoning-Benchmarks wie AIME 2025 das Budget ohne Zugriff auf Ziel-Labels neu zuteilen kann und dabei das beste Effizienz-Leistungs-Verhältnis in Bezug auf die Reasoning-Länge und Pass@k erreicht. Wenn Ziel-Labels zugänglich sind, generiert EAGer bis zu 65 % weniger Tokens (und spart somit Rechenleistung) und erreicht eine Verbesserung von bis zu 37 % in Pass@k im Vergleich zum Full Parallel Sampling.

English

With the rise of reasoning language models and test-time scaling methods as a paradigm for improving model performance, substantial computation is often required to generate multiple candidate sequences from the same prompt. This enables exploration of different reasoning paths toward the correct solution, however, allocates the same compute budget for each prompt. Grounded on the assumption that different prompts carry different degrees of complexity, and thus different computation needs, we propose EAGer, a training-free generation method that leverages model uncertainty through token-wise entropy distribution to reduce redundant computation and concurrently improve overall performance. EAGer allows branching to multiple reasoning paths only in the presence of high-entropy tokens, and then reallocates the saved compute budget to the instances where exploration of alternative paths is most needed. We find that across multiple open-source models on complex reasoning benchmarks such as AIME 2025, EAGer can reallocate the budget without accessing target labels, achieving the best efficiency-performance trade-off in terms of reasoning length and Pass@k. When target labels are accessible, EAGer generates up to 65% fewer tokens (hence saving compute) and achieves up to 37% improvement in Pass@k compared to the Full Parallel Sampling.

EAGER: Entropy-bewusste Generierung für adaptive Skalierung zur Inferenzzeit

EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling

papers.abstract

Support