De schaduwprijs van redeneren: Economisch perspectief op optimale budgettoewijzing voor LLM's

Samenvatting

Schaling tijdens inferentie is een cruciale benadering geworden om de prestaties van grote taalmodellen te verbeteren, maar praktische inzet wordt beperkt door strikte rekenbudgetten. In dit werk formuleren we de toewijzing van inferentiebudgetten als een globaal beperkt optimalisatieprobleem dat wordt beheerst door economische principes. Door het redeneringsnut per query te modelleren met een verschoven-piekfunctie, leiden we een optimaal toewijzingsbeleid af op basis van een globale schaduwprijs die het marginale nut in evenwicht brengt onder schaarste van middelen. Op basis van deze theorie stellen we CLEAR (Constrained Latent-utility Equilibrium Allocation for Reasoning) voor. Deze methode voert rationele abandonnering uit en wijst middelen opnieuw toe van onrendabele queries naar oplosbare queries die hun opkomstdrempels naderen. Uitgebreide experimenten op verschillende redeneringstaken met uiteenlopende verkeersstromen tonen aan dat CLEAR de Pareto-grens van totale tokenkosten versus gemiddelde nauwkeurigheid aanzienlijk verbetert. In schaarste-regimes bereikt CLEAR een verbetering van de globale nauwkeurigheid tot 3x vergeleken met uniforme toewijzing.

English

Inference-time scaling has emerged as a critical avenue for enhancing Large Language Models' performance, yet real-world deployment is constrained by strict computational budgets. In this work, we formulate inference budget allocation as a global constrained optimization problem governed by economic principles. By modeling per-query reasoning utility with a shifted-surge function, we derive an optimal allocation policy based on a global shadow price that equilibrates marginal utility under resource scarcity. Based on this theory, we propose Constrained Latent-utility Equilibrium Allocation for Reasoning (CLEAR). It performs rational abandonment and reallocates resources from insolvent queries to solvable queries near their emergence thresholds. Extensive experiments on several reasoning tasks with different traffic streams demonstrate that CLEAR significantly improves the Pareto frontier of total token cost versus mean accuracy. In resource-scarce regimes, CLEAR achieves up to a 3x improvement in global accuracy compared to uniform allocation.