Le prix d'ombre du raisonnement : perspective économique sur l'allocation budgétaire optimale pour les LLMs

Résumé

Le passage à l'échelle au moment de l'inférence est devenu une voie essentielle pour améliorer les performances des grands modèles de langage, mais leur déploiement en conditions réelles est contraint par des budgets de calcul stricts. Dans ce travail, nous formulons l'allocation du budget d'inférence comme un problème d'optimisation global sous contraintes, régi par des principes économiques. En modélisant l'utilité de raisonnement par requête à l'aide d'une fonction de sursaut décalée, nous dérivons une politique d'allocation optimale fondée sur un prix fictif global qui équilibre l'utilité marginale en situation de rareté des ressources. Sur la base de cette théorie, nous proposons CLEAR (Allocation d'équilibre d'utilité latente sous contraintes pour le raisonnement). Cette méthode effectue un abandon rationnel et réaffecte les ressources des requêtes insolvables vers les requêtes solubles proches de leurs seuils d'émergence. Des expériences approfondies sur plusieurs tâches de raisonnement avec différents flux de trafic montrent que CLEAR améliore significativement la frontière de Pareto entre le coût total en tokens et la précision moyenne. Dans les régimes de rareté des ressources, CLEAR atteint jusqu'à une amélioration d'un facteur 3 de la précision globale par rapport à une allocation uniforme.

English

Inference-time scaling has emerged as a critical avenue for enhancing Large Language Models' performance, yet real-world deployment is constrained by strict computational budgets. In this work, we formulate inference budget allocation as a global constrained optimization problem governed by economic principles. By modeling per-query reasoning utility with a shifted-surge function, we derive an optimal allocation policy based on a global shadow price that equilibrates marginal utility under resource scarcity. Based on this theory, we propose Constrained Latent-utility Equilibrium Allocation for Reasoning (CLEAR). It performs rational abandonment and reallocates resources from insolvent queries to solvable queries near their emergence thresholds. Extensive experiments on several reasoning tasks with different traffic streams demonstrate that CLEAR significantly improves the Pareto frontier of total token cost versus mean accuracy. In resource-scarce regimes, CLEAR achieves up to a 3x improvement in global accuracy compared to uniform allocation.