Het sturen van LLM-denken met budgetbegeleiding

Samenvatting

Recente diepdenkende grote taalmodellen redeneren vaak uitgebreid om de prestaties te verbeteren, maar dergelijk langdurig redeneren is niet altijd wenselijk, omdat het buitensporige inferentiekosten met zich meebrengt die niet in verhouding staan tot de prestatieverbeteringen. Het beheersen van de redeneerlengte zonder in te leveren op prestaties is daarom belangrijk, maar blijft een uitdaging, vooral onder strikte denkbudgetten. Wij stellen budgetbegeleiding voor, een eenvoudige maar effectieve methode om het redeneerproces van grote taalmodellen te sturen naar een doelbudget zonder dat fine-tuning van het model nodig is. Onze aanpak introduceert een lichtgewicht voorspeller die een Gamma-distributie modelleert over de resterende denklengte tijdens de generatie van het volgende token. Dit signaal wordt vervolgens gebruikt om de generatie op een zachte, token-niveau manier te begeleiden, waardoor ervoor wordt gezorgd dat het algehele redeneerspoor voldoet aan het opgegeven denkbudget. Budgetbegeleiding maakt een natuurlijke controle van de denklengte mogelijk, samen met aanzienlijke token-efficiëntieverbeteringen ten opzichte van baseline-methoden op uitdagende wiskundige benchmarks. Zo behaalt het tot 26% nauwkeurigheidswinst op de MATH-500 benchmark onder strikte budgetten in vergelijking met baseline-methoden, terwijl het concurrerende nauwkeurigheid behoudt met slechts 63% van de denktokens die door het volledig redenerende model worden gebruikt. Budgetbegeleiding generaliseert ook naar bredere taakdomeinen en vertoont emergente capaciteiten, zoals het inschatten van de moeilijkheidsgraad van vragen. De broncode is beschikbaar op: https://github.com/UMass-Embodied-AGI/BudgetGuidance.

English

Recent deep-thinking large language models often reason extensively to improve performance, but such lengthy reasoning is not always desirable, as it incurs excessive inference costs with disproportionate performance gains. Controlling reasoning length without sacrificing performance is therefore important, but remains challenging, especially under tight thinking budgets. We propose budget guidance, a simple yet effective method for steering the reasoning process of LLMs toward a target budget without requiring any LLM fine-tuning. Our approach introduces a lightweight predictor that models a Gamma distribution over the remaining thinking length during next-token generation. This signal is then used to guide generation in a soft, token-level manner, ensuring that the overall reasoning trace adheres to the specified thinking budget. Budget guidance enables natural control of the thinking length, along with significant token efficiency improvements over baseline methods on challenging math benchmarks. For instance, it achieves up to a 26% accuracy gain on the MATH-500 benchmark under tight budgets compared to baseline methods, while maintaining competitive accuracy with only 63% of the thinking tokens used by the full-thinking model. Budget guidance also generalizes to broader task domains and exhibits emergent capabilities, such as estimating question difficulty. The source code is available at: https://github.com/UMass-Embodied-AGI/BudgetGuidance.

Het sturen van LLM-denken met budgetbegeleiding

Steering LLM Thinking with Budget Guidance

Samenvatting

Support