Dirigiendo el Pensamiento de los LLM con Orientación Presupuestaria

Resumen

Los modelos de lenguaje de gran escala que razonan en profundidad suelen realizar extensos procesos de razonamiento para mejorar su rendimiento, pero este razonamiento prolongado no siempre es deseable, ya que incurre en costos excesivos de inferencia con ganancias de rendimiento desproporcionadas. Controlar la longitud del razonamiento sin sacrificar el rendimiento es, por tanto, importante, pero sigue siendo un desafío, especialmente bajo presupuestos de pensamiento ajustados. Proponemos la guía de presupuesto, un método simple pero efectivo para dirigir el proceso de razonamiento de los modelos de lenguaje hacia un presupuesto objetivo sin necesidad de ajustes finos del modelo. Nuestro enfoque introduce un predictor ligero que modela una distribución Gamma sobre la longitud restante del pensamiento durante la generación del siguiente token. Esta señal se utiliza luego para guiar la generación de manera suave y a nivel de token, asegurando que el rastro de razonamiento general se ajuste al presupuesto de pensamiento especificado. La guía de presupuesto permite un control natural de la longitud del pensamiento, junto con mejoras significativas en la eficiencia de tokens en comparación con métodos de referencia en desafiantes benchmarks matemáticos. Por ejemplo, logra un aumento de hasta un 26% en precisión en el benchmark MATH-500 bajo presupuestos ajustados en comparación con métodos de referencia, mientras mantiene una precisión competitiva utilizando solo el 63% de los tokens de pensamiento empleados por el modelo de pensamiento completo. La guía de presupuesto también se generaliza a dominios de tareas más amplios y exhibe capacidades emergentes, como la estimación de la dificultad de las preguntas. El código fuente está disponible en: https://github.com/UMass-Embodied-AGI/BudgetGuidance.

English

Recent deep-thinking large language models often reason extensively to improve performance, but such lengthy reasoning is not always desirable, as it incurs excessive inference costs with disproportionate performance gains. Controlling reasoning length without sacrificing performance is therefore important, but remains challenging, especially under tight thinking budgets. We propose budget guidance, a simple yet effective method for steering the reasoning process of LLMs toward a target budget without requiring any LLM fine-tuning. Our approach introduces a lightweight predictor that models a Gamma distribution over the remaining thinking length during next-token generation. This signal is then used to guide generation in a soft, token-level manner, ensuring that the overall reasoning trace adheres to the specified thinking budget. Budget guidance enables natural control of the thinking length, along with significant token efficiency improvements over baseline methods on challenging math benchmarks. For instance, it achieves up to a 26% accuracy gain on the MATH-500 benchmark under tight budgets compared to baseline methods, while maintaining competitive accuracy with only 63% of the thinking tokens used by the full-thinking model. Budget guidance also generalizes to broader task domains and exhibits emergent capabilities, such as estimating question difficulty. The source code is available at: https://github.com/UMass-Embodied-AGI/BudgetGuidance.

Dirigiendo el Pensamiento de los LLM con Orientación Presupuestaria

Steering LLM Thinking with Budget Guidance

Resumen

Support