Het sturen van LLM-denken met budgetbegeleiding
Steering LLM Thinking with Budget Guidance
June 16, 2025
Auteurs: Junyan Li, Wenshuo Zhao, Yang Zhang, Chuang Gan
cs.AI
Samenvatting
Recente diepdenkende grote taalmodellen redeneren vaak uitgebreid om de prestaties te verbeteren, maar dergelijk langdurig redeneren is niet altijd wenselijk, omdat het buitensporige inferentiekosten met zich meebrengt die niet in verhouding staan tot de prestatieverbeteringen. Het beheersen van de redeneerlengte zonder in te leveren op prestaties is daarom belangrijk, maar blijft een uitdaging, vooral onder strikte denkbudgetten. Wij stellen budgetbegeleiding voor, een eenvoudige maar effectieve methode om het redeneerproces van grote taalmodellen te sturen naar een doelbudget zonder dat fine-tuning van het model nodig is. Onze aanpak introduceert een lichtgewicht voorspeller die een Gamma-distributie modelleert over de resterende denklengte tijdens de generatie van het volgende token. Dit signaal wordt vervolgens gebruikt om de generatie op een zachte, token-niveau manier te begeleiden, waardoor ervoor wordt gezorgd dat het algehele redeneerspoor voldoet aan het opgegeven denkbudget. Budgetbegeleiding maakt een natuurlijke controle van de denklengte mogelijk, samen met aanzienlijke token-efficiëntieverbeteringen ten opzichte van baseline-methoden op uitdagende wiskundige benchmarks. Zo behaalt het tot 26% nauwkeurigheidswinst op de MATH-500 benchmark onder strikte budgetten in vergelijking met baseline-methoden, terwijl het concurrerende nauwkeurigheid behoudt met slechts 63% van de denktokens die door het volledig redenerende model worden gebruikt. Budgetbegeleiding generaliseert ook naar bredere taakdomeinen en vertoont emergente capaciteiten, zoals het inschatten van de moeilijkheidsgraad van vragen. De broncode is beschikbaar op: https://github.com/UMass-Embodied-AGI/BudgetGuidance.
English
Recent deep-thinking large language models often reason extensively to
improve performance, but such lengthy reasoning is not always desirable, as it
incurs excessive inference costs with disproportionate performance gains.
Controlling reasoning length without sacrificing performance is therefore
important, but remains challenging, especially under tight thinking budgets. We
propose budget guidance, a simple yet effective method for steering the
reasoning process of LLMs toward a target budget without requiring any LLM
fine-tuning. Our approach introduces a lightweight predictor that models a
Gamma distribution over the remaining thinking length during next-token
generation. This signal is then used to guide generation in a soft, token-level
manner, ensuring that the overall reasoning trace adheres to the specified
thinking budget. Budget guidance enables natural control of the thinking
length, along with significant token efficiency improvements over baseline
methods on challenging math benchmarks. For instance, it achieves up to a 26%
accuracy gain on the MATH-500 benchmark under tight budgets compared to
baseline methods, while maintaining competitive accuracy with only 63% of the
thinking tokens used by the full-thinking model. Budget guidance also
generalizes to broader task domains and exhibits emergent capabilities, such as
estimating question difficulty. The source code is available at:
https://github.com/UMass-Embodied-AGI/BudgetGuidance.