Planificación y Presupuesto: Escalado Efectivo y Eficiente en Tiempo de Prueba para el Razonamiento en Modelos de Lenguaje a Gran Escala
Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning
May 22, 2025
Autores: Junhong Lin, Xinyue Zeng, Jie Zhu, Song Wang, Julian Shun, Jun Wu, Dawei Zhou
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado un éxito notable en tareas de razonamiento complejo, pero su inferencia sigue siendo computacionalmente ineficiente. Observamos un modo de fallo común en muchos LLMs prevalentes, el *sobrepensamiento*, donde los modelos generan trazas de razonamiento verbosas y tangenciales incluso para consultas simples. Trabajos recientes han intentado mitigar esto imponiendo presupuestos fijos de tokens; sin embargo, esto puede llevar a un *subpensamiento*, especialmente en problemas más difíciles. A través de un análisis empírico, identificamos que esta ineficiencia a menudo surge de estrategias poco claras para resolver problemas. Para formalizar esto, desarrollamos un modelo teórico, BBAM (Modelo de Asignación de Presupuesto Bayesiano), que modela el razonamiento como una secuencia de subpreguntas con incertidumbre variable, e introducimos la métrica E^3 para capturar el equilibrio entre la corrección y la eficiencia computacional. Basándonos en los resultados teóricos de BBAM, proponemos *Plan-and-Budget*, un marco agnóstico al modelo y en tiempo de prueba que descompone consultas complejas en subpreguntas y asigna presupuestos de tokens según la complejidad estimada mediante programación adaptativa. *Plan-and-Budget* mejora la eficiencia del razonamiento en una variedad de tareas y modelos, logrando ganancias de precisión de hasta +70%, una reducción de tokens del -39% y una mejora del +187.5% en E^3. Notablemente, eleva un modelo más pequeño (DS-Qwen-32B) para igualar la eficiencia de un modelo más grande (DS-LLaMA-70B), demostrando la capacidad de *Plan-and-Budget* para cerrar brechas de rendimiento sin necesidad de reentrenamiento. Nuestro código está disponible en anonymous.4open.science/r/P-and-B-6513/.
English
Large Language Models (LLMs) have achieved remarkable success in complex
reasoning tasks, but their inference remains computationally inefficient. We
observe a common failure mode in many prevalent LLMs, overthinking, where
models generate verbose and tangential reasoning traces even for simple
queries. Recent works have tried to mitigate this by enforcing fixed token
budgets, however, this can lead to underthinking, especially on harder
problems. Through empirical analysis, we identify that this inefficiency often
stems from unclear problem-solving strategies. To formalize this, we develop a
theoretical model, BBAM (Bayesian Budget Allocation Model), which models
reasoning as a sequence of sub-questions with varying uncertainty, and
introduce the E^3 metric to capture the trade-off between correctness and
computation efficiency. Building on theoretical results from BBAM, we propose
Plan-and-Budget, a model-agnostic, test-time framework that decomposes complex
queries into sub-questions and allocates token budgets based on estimated
complexity using adaptive scheduling. Plan-and-Budget improves reasoning
efficiency across a range of tasks and models, achieving up to +70% accuracy
gains, -39% token reduction, and +187.5% improvement in E^3. Notably, it
elevates a smaller model (DS-Qwen-32B) to match the efficiency of a larger
model (DS-LLaMA-70B)-demonstrating Plan-and-Budget's ability to close
performance gaps without retraining. Our code is available at
anonymous.4open.science/r/P-and-B-6513/.