Plan en Budget: Effectieve en Efficiënte Schaling tijdens Testen voor Redeneren met Grote Taalmodellen

Samenvatting

Grote Taalmodellen (LLMs) hebben opmerkelijke successen behaald in complexe redeneertaken, maar hun inferentie blijft computationeel inefficiënt. We observeren een veelvoorkomend falingspatroon bij veel gangbare LLMs, namelijk 'overdenken', waarbij modellen uitgebreide en tangentiële redeneersporen genereren, zelfs voor eenvoudige vragen. Recente werken hebben geprobeerd dit te verhelpen door vaste tokenbudgetten af te dwingen, maar dit kan leiden tot 'onderdenken', vooral bij moeilijkere problemen. Door empirische analyse identificeren we dat deze inefficiëntie vaak voortkomt uit onduidelijke probleemoplossingsstrategieën. Om dit te formaliseren, ontwikkelen we een theoretisch model, BBAM (Bayesian Budget Allocation Model), dat redeneren modelleert als een reeks subvragen met variërende onzekerheid, en introduceren we de E^3-metric om de afweging tussen correctheid en rekenkundige efficiëntie vast te leggen. Gebaseerd op theoretische resultaten van BBAM, stellen we Plan-and-Budget voor, een model-agnostisch, test-time framework dat complexe vragen opsplitst in subvragen en tokenbudgetten toewijst op basis van geschatte complexiteit met behulp van adaptieve planning. Plan-and-Budget verbetert de redeneerefficiëntie over een reeks taken en modellen, met tot wel +70% nauwkeurigheidswinst, -39% tokenreductie en +187,5% verbetering in E^3. Opmerkelijk is dat het een kleiner model (DS-Qwen-32B) opwaardeert om de efficiëntie van een groter model (DS-LLaMA-70B) te evenaren, wat aantoont dat Plan-and-Budget prestatiekloof kan dichten zonder hertraining. Onze code is beschikbaar op anonymous.4open.science/r/P-and-B-6513/.

English

Large Language Models (LLMs) have achieved remarkable success in complex reasoning tasks, but their inference remains computationally inefficient. We observe a common failure mode in many prevalent LLMs, overthinking, where models generate verbose and tangential reasoning traces even for simple queries. Recent works have tried to mitigate this by enforcing fixed token budgets, however, this can lead to underthinking, especially on harder problems. Through empirical analysis, we identify that this inefficiency often stems from unclear problem-solving strategies. To formalize this, we develop a theoretical model, BBAM (Bayesian Budget Allocation Model), which models reasoning as a sequence of sub-questions with varying uncertainty, and introduce the E^3 metric to capture the trade-off between correctness and computation efficiency. Building on theoretical results from BBAM, we propose Plan-and-Budget, a model-agnostic, test-time framework that decomposes complex queries into sub-questions and allocates token budgets based on estimated complexity using adaptive scheduling. Plan-and-Budget improves reasoning efficiency across a range of tasks and models, achieving up to +70% accuracy gains, -39% token reduction, and +187.5% improvement in E^3. Notably, it elevates a smaller model (DS-Qwen-32B) to match the efficiency of a larger model (DS-LLaMA-70B)-demonstrating Plan-and-Budget's ability to close performance gaps without retraining. Our code is available at anonymous.4open.science/r/P-and-B-6513/.

Plan en Budget: Effectieve en Efficiënte Schaling tijdens Testen voor Redeneren met Grote Taalmodellen

Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning

Samenvatting

Support