O Preço Sombra do Raciocínio: Perspectiva Econômica sobre a Alocação Ótima de Orçamento para LLMs

Resumo

O escalonamento em tempo de inferência emergiu como uma via crítica para melhorar o desempenho de Modelos de Linguagem de Grande Escala, porém sua implantação no mundo real é limitada por orçamentos computacionais estritos. Neste trabalho, formulamos a alocação de orçamento de inferência como um problema global de otimização restrita, regido por princípios econômicos. Ao modelar a utilidade de raciocínio por consulta com uma função de surto deslocado, derivamos uma política de alocação ótima baseada em um preço sombra global que equilibra a utilidade marginal sob escassez de recursos. Com base nessa teoria, propomos o método CLEAR (Constrained Latent-utility Equilibrium Allocation for Reasoning — Alocação de Equilíbrio de Utilidade Latente com Restrições para Raciocínio). Ele realiza abandono racional e realoca recursos de consultas insolventes para consultas solucionáveis próximas de seus limiares de emergência. Experimentos extensivos em diversas tarefas de raciocínio com diferentes fluxos de tráfego demonstram que o CLEAR melhora significativamente a fronteira de Pareto entre o custo total de tokens e a acurácia média. Em regimes de escassez de recursos, o CLEAR alcança uma melhoria de até 3x na acurácia global em comparação com a alocação uniforme.

English

Inference-time scaling has emerged as a critical avenue for enhancing Large Language Models' performance, yet real-world deployment is constrained by strict computational budgets. In this work, we formulate inference budget allocation as a global constrained optimization problem governed by economic principles. By modeling per-query reasoning utility with a shifted-surge function, we derive an optimal allocation policy based on a global shadow price that equilibrates marginal utility under resource scarcity. Based on this theory, we propose Constrained Latent-utility Equilibrium Allocation for Reasoning (CLEAR). It performs rational abandonment and reallocates resources from insolvent queries to solvable queries near their emergence thresholds. Extensive experiments on several reasoning tasks with different traffic streams demonstrate that CLEAR significantly improves the Pareto frontier of total token cost versus mean accuracy. In resource-scarce regimes, CLEAR achieves up to a 3x improvement in global accuracy compared to uniform allocation.