Planung und Budgetierung: Effektive und effiziente Skalierung zur Testzeit bei der Argumentation großer Sprachmodelle

papers.abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge bei komplexen Denkaufgaben erzielt, aber ihre Inferenz bleibt rechnerisch ineffizient. Wir beobachten einen häufigen Fehlermodus in vielen verbreiteten LLMs, das sogenannte „Overthinking“, bei dem Modelle ausführliche und tangentiale Denkspuren selbst für einfache Anfragen generieren. Neuere Arbeiten haben versucht, dies durch die Durchsetzung fester Token-Budgets zu mildern, was jedoch insbesondere bei schwierigeren Problemen zu „Underthinking“ führen kann. Durch empirische Analysen identifizieren wir, dass diese Ineffizienz oft auf unklare Problemlösungsstrategien zurückzuführen ist. Um dies zu formalisieren, entwickeln wir ein theoretisches Modell, BBAM (Bayesian Budget Allocation Model), das Denken als eine Folge von Teilfragen mit unterschiedlicher Unsicherheit modelliert, und führen die E^3-Metrik ein, um den Kompromiss zwischen Korrektheit und Recheneffizienz zu erfassen. Basierend auf den theoretischen Ergebnissen von BBAM schlagen wir Plan-and-Budget vor, ein modellunabhängiges, testzeitliches Framework, das komplexe Anfragen in Teilfragen zerlegt und Token-Budgets basierend auf geschätzter Komplexität mittels adaptiver Planung zuweist. Plan-and-Budget verbessert die Denkeffizienz über eine Reihe von Aufgaben und Modellen hinweg und erzielt bis zu +70 % Genauigkeitssteigerungen, -39 % Token-Reduktion und +187,5 % Verbesserung in E^3. Bemerkenswerterweise hebt es ein kleineres Modell (DS-Qwen-32B) auf die Effizienz eines größeren Modells (DS-LLaMA-70B) an – was die Fähigkeit von Plan-and-Budget demonstriert, Leistungslücken ohne erneutes Training zu schließen. Unser Code ist verfügbar unter anonymous.4open.science/r/P-and-B-6513/.

English

Large Language Models (LLMs) have achieved remarkable success in complex reasoning tasks, but their inference remains computationally inefficient. We observe a common failure mode in many prevalent LLMs, overthinking, where models generate verbose and tangential reasoning traces even for simple queries. Recent works have tried to mitigate this by enforcing fixed token budgets, however, this can lead to underthinking, especially on harder problems. Through empirical analysis, we identify that this inefficiency often stems from unclear problem-solving strategies. To formalize this, we develop a theoretical model, BBAM (Bayesian Budget Allocation Model), which models reasoning as a sequence of sub-questions with varying uncertainty, and introduce the E^3 metric to capture the trade-off between correctness and computation efficiency. Building on theoretical results from BBAM, we propose Plan-and-Budget, a model-agnostic, test-time framework that decomposes complex queries into sub-questions and allocates token budgets based on estimated complexity using adaptive scheduling. Plan-and-Budget improves reasoning efficiency across a range of tasks and models, achieving up to +70% accuracy gains, -39% token reduction, and +187.5% improvement in E^3. Notably, it elevates a smaller model (DS-Qwen-32B) to match the efficiency of a larger model (DS-LLaMA-70B)-demonstrating Plan-and-Budget's ability to close performance gaps without retraining. Our code is available at anonymous.4open.science/r/P-and-B-6513/.

Planung und Budgetierung: Effektive und effiziente Skalierung zur Testzeit bei der Argumentation großer Sprachmodelle

Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning

papers.abstract

Support