Direcionando o Pensamento de LLMs com Orientação Orçamentária
Steering LLM Thinking with Budget Guidance
June 16, 2025
Autores: Junyan Li, Wenshuo Zhao, Yang Zhang, Chuang Gan
cs.AI
Resumo
Modelos recentes de linguagem de grande escala (LLMs) que realizam raciocínio profundo frequentemente processam extensivamente para melhorar o desempenho, mas esse raciocínio prolongado nem sempre é desejável, pois acarreta custos excessivos de inferência com ganhos de desempenho desproporcionais. Controlar o comprimento do raciocínio sem sacrificar o desempenho é, portanto, importante, mas permanece desafiador, especialmente sob orçamentos de pensamento restritos. Propomos a orientação por orçamento, um método simples, porém eficaz, para direcionar o processo de raciocínio dos LLMs em direção a um orçamento-alvo sem a necessidade de ajuste fino do modelo. Nossa abordagem introduz um preditor leve que modela uma distribuição Gamma sobre o comprimento restante do pensamento durante a geração do próximo token. Esse sinal é então usado para guiar a geração de forma suave, em nível de token, garantindo que o rastro de raciocínio geral adira ao orçamento de pensamento especificado. A orientação por orçamento permite o controle natural do comprimento do pensamento, além de melhorias significativas na eficiência de tokens em comparação com métodos de linha de base em benchmarks matemáticos desafiadores. Por exemplo, ela alcança um ganho de até 26% na precisão no benchmark MATH-500 sob orçamentos restritos em relação aos métodos de linha de base, mantendo uma precisão competitiva com apenas 63% dos tokens de pensamento usados pelo modelo de pensamento completo. A orientação por orçamento também se generaliza para domínios de tarefas mais amplos e exibe capacidades emergentes, como a estimativa da dificuldade das questões. O código-fonte está disponível em: https://github.com/UMass-Embodied-AGI/BudgetGuidance.
English
Recent deep-thinking large language models often reason extensively to
improve performance, but such lengthy reasoning is not always desirable, as it
incurs excessive inference costs with disproportionate performance gains.
Controlling reasoning length without sacrificing performance is therefore
important, but remains challenging, especially under tight thinking budgets. We
propose budget guidance, a simple yet effective method for steering the
reasoning process of LLMs toward a target budget without requiring any LLM
fine-tuning. Our approach introduces a lightweight predictor that models a
Gamma distribution over the remaining thinking length during next-token
generation. This signal is then used to guide generation in a soft, token-level
manner, ensuring that the overall reasoning trace adheres to the specified
thinking budget. Budget guidance enables natural control of the thinking
length, along with significant token efficiency improvements over baseline
methods on challenging math benchmarks. For instance, it achieves up to a 26%
accuracy gain on the MATH-500 benchmark under tight budgets compared to
baseline methods, while maintaining competitive accuracy with only 63% of the
thinking tokens used by the full-thinking model. Budget guidance also
generalizes to broader task domains and exhibits emergent capabilities, such as
estimating question difficulty. The source code is available at:
https://github.com/UMass-Embodied-AGI/BudgetGuidance.