Plan en Budget: Effectieve en Efficiënte Schaling tijdens Testen voor Redeneren met Grote Taalmodellen
Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning
May 22, 2025
Auteurs: Junhong Lin, Xinyue Zeng, Jie Zhu, Song Wang, Julian Shun, Jun Wu, Dawei Zhou
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben opmerkelijke successen behaald in complexe redeneertaken, maar hun inferentie blijft computationeel inefficiënt. We observeren een veelvoorkomend falingspatroon bij veel gangbare LLMs, namelijk 'overdenken', waarbij modellen uitgebreide en tangentiële redeneersporen genereren, zelfs voor eenvoudige vragen. Recente werken hebben geprobeerd dit te verhelpen door vaste tokenbudgetten af te dwingen, maar dit kan leiden tot 'onderdenken', vooral bij moeilijkere problemen. Door empirische analyse identificeren we dat deze inefficiëntie vaak voortkomt uit onduidelijke probleemoplossingsstrategieën. Om dit te formaliseren, ontwikkelen we een theoretisch model, BBAM (Bayesian Budget Allocation Model), dat redeneren modelleert als een reeks subvragen met variërende onzekerheid, en introduceren we de E^3-metric om de afweging tussen correctheid en rekenkundige efficiëntie vast te leggen. Gebaseerd op theoretische resultaten van BBAM, stellen we Plan-and-Budget voor, een model-agnostisch, test-time framework dat complexe vragen opsplitst in subvragen en tokenbudgetten toewijst op basis van geschatte complexiteit met behulp van adaptieve planning. Plan-and-Budget verbetert de redeneerefficiëntie over een reeks taken en modellen, met tot wel +70% nauwkeurigheidswinst, -39% tokenreductie en +187,5% verbetering in E^3. Opmerkelijk is dat het een kleiner model (DS-Qwen-32B) opwaardeert om de efficiëntie van een groter model (DS-LLaMA-70B) te evenaren, wat aantoont dat Plan-and-Budget prestatiekloof kan dichten zonder hertraining. Onze code is beschikbaar op anonymous.4open.science/r/P-and-B-6513/.
English
Large Language Models (LLMs) have achieved remarkable success in complex
reasoning tasks, but their inference remains computationally inefficient. We
observe a common failure mode in many prevalent LLMs, overthinking, where
models generate verbose and tangential reasoning traces even for simple
queries. Recent works have tried to mitigate this by enforcing fixed token
budgets, however, this can lead to underthinking, especially on harder
problems. Through empirical analysis, we identify that this inefficiency often
stems from unclear problem-solving strategies. To formalize this, we develop a
theoretical model, BBAM (Bayesian Budget Allocation Model), which models
reasoning as a sequence of sub-questions with varying uncertainty, and
introduce the E^3 metric to capture the trade-off between correctness and
computation efficiency. Building on theoretical results from BBAM, we propose
Plan-and-Budget, a model-agnostic, test-time framework that decomposes complex
queries into sub-questions and allocates token budgets based on estimated
complexity using adaptive scheduling. Plan-and-Budget improves reasoning
efficiency across a range of tasks and models, achieving up to +70% accuracy
gains, -39% token reduction, and +187.5% improvement in E^3. Notably, it
elevates a smaller model (DS-Qwen-32B) to match the efficiency of a larger
model (DS-LLaMA-70B)-demonstrating Plan-and-Budget's ability to close
performance gaps without retraining. Our code is available at
anonymous.4open.science/r/P-and-B-6513/.