Planificación y Presupuesto: Escalado Efectivo y Eficiente en Tiempo de Prueba para el Razonamiento en Modelos de Lenguaje a Gran Escala

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado un éxito notable en tareas de razonamiento complejo, pero su inferencia sigue siendo computacionalmente ineficiente. Observamos un modo de fallo común en muchos LLMs prevalentes, el *sobrepensamiento*, donde los modelos generan trazas de razonamiento verbosas y tangenciales incluso para consultas simples. Trabajos recientes han intentado mitigar esto imponiendo presupuestos fijos de tokens; sin embargo, esto puede llevar a un *subpensamiento*, especialmente en problemas más difíciles. A través de un análisis empírico, identificamos que esta ineficiencia a menudo surge de estrategias poco claras para resolver problemas. Para formalizar esto, desarrollamos un modelo teórico, BBAM (Modelo de Asignación de Presupuesto Bayesiano), que modela el razonamiento como una secuencia de subpreguntas con incertidumbre variable, e introducimos la métrica E^3 para capturar el equilibrio entre la corrección y la eficiencia computacional. Basándonos en los resultados teóricos de BBAM, proponemos *Plan-and-Budget*, un marco agnóstico al modelo y en tiempo de prueba que descompone consultas complejas en subpreguntas y asigna presupuestos de tokens según la complejidad estimada mediante programación adaptativa. *Plan-and-Budget* mejora la eficiencia del razonamiento en una variedad de tareas y modelos, logrando ganancias de precisión de hasta +70%, una reducción de tokens del -39% y una mejora del +187.5% en E^3. Notablemente, eleva un modelo más pequeño (DS-Qwen-32B) para igualar la eficiencia de un modelo más grande (DS-LLaMA-70B), demostrando la capacidad de *Plan-and-Budget* para cerrar brechas de rendimiento sin necesidad de reentrenamiento. Nuestro código está disponible en anonymous.4open.science/r/P-and-B-6513/.

English

Large Language Models (LLMs) have achieved remarkable success in complex reasoning tasks, but their inference remains computationally inefficient. We observe a common failure mode in many prevalent LLMs, overthinking, where models generate verbose and tangential reasoning traces even for simple queries. Recent works have tried to mitigate this by enforcing fixed token budgets, however, this can lead to underthinking, especially on harder problems. Through empirical analysis, we identify that this inefficiency often stems from unclear problem-solving strategies. To formalize this, we develop a theoretical model, BBAM (Bayesian Budget Allocation Model), which models reasoning as a sequence of sub-questions with varying uncertainty, and introduce the E^3 metric to capture the trade-off between correctness and computation efficiency. Building on theoretical results from BBAM, we propose Plan-and-Budget, a model-agnostic, test-time framework that decomposes complex queries into sub-questions and allocates token budgets based on estimated complexity using adaptive scheduling. Plan-and-Budget improves reasoning efficiency across a range of tasks and models, achieving up to +70% accuracy gains, -39% token reduction, and +187.5% improvement in E^3. Notably, it elevates a smaller model (DS-Qwen-32B) to match the efficiency of a larger model (DS-LLaMA-70B)-demonstrating Plan-and-Budget's ability to close performance gaps without retraining. Our code is available at anonymous.4open.science/r/P-and-B-6513/.

Planificación y Presupuesto: Escalado Efectivo y Eficiente en Tiempo de Prueba para el Razonamiento en Modelos de Lenguaje a Gran Escala

Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning

Resumen

Support