Der Schattenpreis des Reasoning: Eine ökonomische Perspektive auf die optimale Budgetallokation für große Sprachmodelle

Zusammenfassung

Inferenzzeit-Skalierung hat sich als ein entscheidender Ansatz zur Verbesserung der Leistungsfähigkeit großer Sprachmodelle erwiesen, doch der praktische Einsatz wird durch strenge Rechenbudgets eingeschränkt. In dieser Arbeit formulieren wir die Zuweisung von Inferenzbudgets als ein globales, eingeschränktes Optimierungsproblem, das von ökonomischen Prinzipien geleitet wird. Durch die Modellierung des per-Abfrage-Nutzen des Denkprozesses mit einer verschobenen Anstiegsfunktion leiten wir eine optimale Zuweisungspolitik ab, die auf einem globalen Schattenpreis basiert, der den Grenznutzen bei Ressourcenknappheit ausgleicht. Auf Grundlage dieser Theorie schlagen wir CLEAR (Constrained Latent-utility Equilibrium Allocation for Reasoning) vor. Dieses Verfahren führt eine rationale Abweisung durch und weist Ressourcen von zahlungsunfähigen Anfragen an lösbare Anfragen nahe ihrer Emergenzschwellen um. Umfangreiche Experimente zu verschiedenen Denkaufgaben mit unterschiedlichen Verkehrsströmen zeigen, dass CLEAR die Pareto-Grenze der Gesamt-Tokenkosten gegenüber der durchschnittlichen Genauigkeit signifikant verbessert. In ressourcenarmen Regimen erreicht CLEAR eine bis zu dreifache Verbesserung der globalen Genauigkeit im Vergleich zur gleichmäßigen Zuweisung.

English

Inference-time scaling has emerged as a critical avenue for enhancing Large Language Models' performance, yet real-world deployment is constrained by strict computational budgets. In this work, we formulate inference budget allocation as a global constrained optimization problem governed by economic principles. By modeling per-query reasoning utility with a shifted-surge function, we derive an optimal allocation policy based on a global shadow price that equilibrates marginal utility under resource scarcity. Based on this theory, we propose Constrained Latent-utility Equilibrium Allocation for Reasoning (CLEAR). It performs rational abandonment and reallocates resources from insolvent queries to solvable queries near their emergence thresholds. Extensive experiments on several reasoning tasks with different traffic streams demonstrate that CLEAR significantly improves the Pareto frontier of total token cost versus mean accuracy. In resource-scarce regimes, CLEAR achieves up to a 3x improvement in global accuracy compared to uniform allocation.