Steuerung des Denkens von LLMs durch Budgetvorgaben
Steering LLM Thinking with Budget Guidance
June 16, 2025
Autoren: Junyan Li, Wenshuo Zhao, Yang Zhang, Chuang Gan
cs.AI
Zusammenfassung
Aktuelle Deep-Thinking-Modelle für große Sprachmodelle (LLMs) führen oft umfangreiche Überlegungen durch, um die Leistung zu verbessern. Solch langwierige Denkprozesse sind jedoch nicht immer wünschenswert, da sie übermäßige Inferenzkosten mit unverhältnismäßig geringen Leistungssteigerungen verursachen. Die Kontrolle der Denklänge ohne Einbußen bei der Leistung ist daher wichtig, bleibt jedoch eine Herausforderung, insbesondere bei strengen Denkbudgets. Wir schlagen Budget Guidance vor, eine einfache, aber effektive Methode, um den Denkprozess von LLMs auf ein vorgegebenes Budget zu lenken, ohne dass eine Feinabstimmung der LLMs erforderlich ist. Unser Ansatz führt einen leichtgewichtigen Prädiktor ein, der eine Gamma-Verteilung über die verbleibende Denklänge während der nächsten Token-Generierung modelliert. Dieses Signal wird dann verwendet, um die Generierung auf weiche, Token-Ebene Weise zu steuern, wodurch sichergestellt wird, dass der gesamte Denkprozess das spezifizierte Denkbudget einhält. Budget Guidance ermöglicht eine natürliche Kontrolle der Denklänge sowie signifikante Verbesserungen der Token-Effizienz im Vergleich zu Baseline-Methoden bei anspruchsvollen mathematischen Benchmarks. Beispielsweise erzielt es bis zu 26 % Genauigkeitssteigerung beim MATH-500-Benchmark unter strengen Budgets im Vergleich zu Baseline-Methoden, während es eine wettbewerbsfähige Genauigkeit mit nur 63 % der Denk-Token des vollständig denkenden Modells beibehält. Budget Guidance verallgemeinert sich auch auf breitere Aufgabenbereiche und zeigt emergente Fähigkeiten, wie die Schätzung der Schwierigkeit von Fragen. Der Quellcode ist verfügbar unter: https://github.com/UMass-Embodied-AGI/BudgetGuidance.
English
Recent deep-thinking large language models often reason extensively to
improve performance, but such lengthy reasoning is not always desirable, as it
incurs excessive inference costs with disproportionate performance gains.
Controlling reasoning length without sacrificing performance is therefore
important, but remains challenging, especially under tight thinking budgets. We
propose budget guidance, a simple yet effective method for steering the
reasoning process of LLMs toward a target budget without requiring any LLM
fine-tuning. Our approach introduces a lightweight predictor that models a
Gamma distribution over the remaining thinking length during next-token
generation. This signal is then used to guide generation in a soft, token-level
manner, ensuring that the overall reasoning trace adheres to the specified
thinking budget. Budget guidance enables natural control of the thinking
length, along with significant token efficiency improvements over baseline
methods on challenging math benchmarks. For instance, it achieves up to a 26%
accuracy gain on the MATH-500 benchmark under tight budgets compared to
baseline methods, while maintaining competitive accuracy with only 63% of the
thinking tokens used by the full-thinking model. Budget guidance also
generalizes to broader task domains and exhibits emergent capabilities, such as
estimating question difficulty. The source code is available at:
https://github.com/UMass-Embodied-AGI/BudgetGuidance.