El Precio Sombra del Razonamiento: Perspectiva Económica sobre la Asignación Óptima de Presupuesto para LLMs

Resumen

El escalado en tiempo de inferencia ha surgido como una vía crítica para mejorar el rendimiento de los Modelos de Lenguaje a Gran Escala, pero su implementación en el mundo real está limitada por presupuestos computacionales estrictos. En este trabajo, formulamos la asignación del presupuesto de inferencia como un problema global de optimización restringida gobernado por principios económicos. Modelando la utilidad de razonamiento por consulta con una función de sobretiro desplazado, derivamos una política de asignación óptima basada en un precio sombra global que equilibra la utilidad marginal bajo escasez de recursos. Basándonos en esta teoría, proponemos la Asignación de Equilibrio de Utilidad Latente Restringida para el Razonamiento (CLEAR, por sus siglas en inglés). Este método realiza un abandono racional y reasigna recursos desde consultas insolventes hacia consultas solucionables cercanas a sus umbrales de emergencia. Experimentos exhaustivos en varias tareas de razonamiento con diferentes flujos de tráfico demuestran que CLEAR mejora significativamente la frontera de Pareto entre el costo total de tokens y la precisión media. En regímenes de escasez de recursos, CLEAR logra una mejora de hasta 3 veces en la precisión global en comparación con la asignación uniforme.

English

Inference-time scaling has emerged as a critical avenue for enhancing Large Language Models' performance, yet real-world deployment is constrained by strict computational budgets. In this work, we formulate inference budget allocation as a global constrained optimization problem governed by economic principles. By modeling per-query reasoning utility with a shifted-surge function, we derive an optimal allocation policy based on a global shadow price that equilibrates marginal utility under resource scarcity. Based on this theory, we propose Constrained Latent-utility Equilibrium Allocation for Reasoning (CLEAR). It performs rational abandonment and reallocates resources from insolvent queries to solvable queries near their emergence thresholds. Extensive experiments on several reasoning tasks with different traffic streams demonstrate that CLEAR significantly improves the Pareto frontier of total token cost versus mean accuracy. In resource-scarce regimes, CLEAR achieves up to a 3x improvement in global accuracy compared to uniform allocation.