ChatPaper.aiChatPaper

Guidare il Pensiero degli LLM con Indicazioni di Budget

Steering LLM Thinking with Budget Guidance

June 16, 2025
Autori: Junyan Li, Wenshuo Zhao, Yang Zhang, Chuang Gan
cs.AI

Abstract

I recenti modelli linguistici di grandi dimensioni basati sul deep thinking spesso ragionano in modo esteso per migliorare le prestazioni, ma un ragionamento così prolungato non è sempre desiderabile, poiché comporta costi di inferenza eccessivi con guadagni di prestazioni sproporzionati. Controllare la lunghezza del ragionamento senza sacrificare le prestazioni è quindi importante, ma rimane una sfida, specialmente con budget di pensiero limitati. Proponiamo il budget guidance, un metodo semplice ma efficace per orientare il processo di ragionamento dei modelli linguistici verso un budget target senza richiedere alcun fine-tuning del modello. Il nostro approccio introduce un predittore leggero che modella una distribuzione Gamma sulla lunghezza residua del pensiero durante la generazione del token successivo. Questo segnale viene quindi utilizzato per guidare la generazione in modo soft, a livello di token, garantendo che la traccia complessiva del ragionamento rispetti il budget di pensiero specificato. Il budget guidance consente un controllo naturale della lunghezza del pensiero, insieme a significativi miglioramenti nell'efficienza dei token rispetto ai metodi di base su benchmark matematici impegnativi. Ad esempio, raggiunge un aumento di accuratezza fino al 26% sul benchmark MATH-500 con budget ristretti rispetto ai metodi di base, mantenendo un'accuratezza competitiva con solo il 63% dei token di pensiero utilizzati dal modello a pieno ragionamento. Il budget guidance si generalizza anche a domini di task più ampi e mostra capacità emergenti, come la stima della difficoltà delle domande. Il codice sorgente è disponibile all'indirizzo: https://github.com/UMass-Embodied-AGI/BudgetGuidance.
English
Recent deep-thinking large language models often reason extensively to improve performance, but such lengthy reasoning is not always desirable, as it incurs excessive inference costs with disproportionate performance gains. Controlling reasoning length without sacrificing performance is therefore important, but remains challenging, especially under tight thinking budgets. We propose budget guidance, a simple yet effective method for steering the reasoning process of LLMs toward a target budget without requiring any LLM fine-tuning. Our approach introduces a lightweight predictor that models a Gamma distribution over the remaining thinking length during next-token generation. This signal is then used to guide generation in a soft, token-level manner, ensuring that the overall reasoning trace adheres to the specified thinking budget. Budget guidance enables natural control of the thinking length, along with significant token efficiency improvements over baseline methods on challenging math benchmarks. For instance, it achieves up to a 26% accuracy gain on the MATH-500 benchmark under tight budgets compared to baseline methods, while maintaining competitive accuracy with only 63% of the thinking tokens used by the full-thinking model. Budget guidance also generalizes to broader task domains and exhibits emergent capabilities, such as estimating question difficulty. The source code is available at: https://github.com/UMass-Embodied-AGI/BudgetGuidance.
PDF42June 17, 2025