Dirigiendo el Pensamiento de los LLM con Orientación Presupuestaria
Steering LLM Thinking with Budget Guidance
June 16, 2025
Autores: Junyan Li, Wenshuo Zhao, Yang Zhang, Chuang Gan
cs.AI
Resumen
Los modelos de lenguaje de gran escala que razonan en profundidad suelen realizar extensos procesos de razonamiento para mejorar su rendimiento, pero este razonamiento prolongado no siempre es deseable, ya que incurre en costos excesivos de inferencia con ganancias de rendimiento desproporcionadas. Controlar la longitud del razonamiento sin sacrificar el rendimiento es, por tanto, importante, pero sigue siendo un desafío, especialmente bajo presupuestos de pensamiento ajustados. Proponemos la guía de presupuesto, un método simple pero efectivo para dirigir el proceso de razonamiento de los modelos de lenguaje hacia un presupuesto objetivo sin necesidad de ajustes finos del modelo. Nuestro enfoque introduce un predictor ligero que modela una distribución Gamma sobre la longitud restante del pensamiento durante la generación del siguiente token. Esta señal se utiliza luego para guiar la generación de manera suave y a nivel de token, asegurando que el rastro de razonamiento general se ajuste al presupuesto de pensamiento especificado. La guía de presupuesto permite un control natural de la longitud del pensamiento, junto con mejoras significativas en la eficiencia de tokens en comparación con métodos de referencia en desafiantes benchmarks matemáticos. Por ejemplo, logra un aumento de hasta un 26% en precisión en el benchmark MATH-500 bajo presupuestos ajustados en comparación con métodos de referencia, mientras mantiene una precisión competitiva utilizando solo el 63% de los tokens de pensamiento empleados por el modelo de pensamiento completo. La guía de presupuesto también se generaliza a dominios de tareas más amplios y exhibe capacidades emergentes, como la estimación de la dificultad de las preguntas. El código fuente está disponible en: https://github.com/UMass-Embodied-AGI/BudgetGuidance.
English
Recent deep-thinking large language models often reason extensively to
improve performance, but such lengthy reasoning is not always desirable, as it
incurs excessive inference costs with disproportionate performance gains.
Controlling reasoning length without sacrificing performance is therefore
important, but remains challenging, especially under tight thinking budgets. We
propose budget guidance, a simple yet effective method for steering the
reasoning process of LLMs toward a target budget without requiring any LLM
fine-tuning. Our approach introduces a lightweight predictor that models a
Gamma distribution over the remaining thinking length during next-token
generation. This signal is then used to guide generation in a soft, token-level
manner, ensuring that the overall reasoning trace adheres to the specified
thinking budget. Budget guidance enables natural control of the thinking
length, along with significant token efficiency improvements over baseline
methods on challenging math benchmarks. For instance, it achieves up to a 26%
accuracy gain on the MATH-500 benchmark under tight budgets compared to
baseline methods, while maintaining competitive accuracy with only 63% of the
thinking tokens used by the full-thinking model. Budget guidance also
generalizes to broader task domains and exhibits emergent capabilities, such as
estimating question difficulty. The source code is available at:
https://github.com/UMass-Embodied-AGI/BudgetGuidance.