Теневая цена рассуждения: экономический взгляд на оптимальное распределение бюджета для LLM

Аннотация

Масштабирование времени вывода стало важным направлением для повышения производительности больших языковых моделей, однако развертывание в реальных условиях ограничено строгими вычислительными бюджетами. В данной работе мы формулируем распределение бюджета вывода как глобальную задачу оптимизации с ограничениями, управляемую экономическими принципами. Моделируя полезность рассуждения на один запрос с помощью функции сдвинутого всплеска, мы выводим оптимальную политику распределения на основе глобальной теневой цены, которая уравновешивает предельную полезность в условиях дефицита ресурсов. Основываясь на этой теории, мы предлагаем Constrained Latent-utility Equilibrium Allocation for Reasoning (CLEAR). Он выполняет рациональный отказ и перераспределяет ресурсы от несостоятельных запросов к разрешимым запросам, близким к их порогам возникновения. Обширные эксперименты на нескольких задачах рассуждения с различными потоками трафика показывают, что CLEAR значительно улучшает границу Парето между общей стоимостью токенов и средней точностью. В условиях дефицита ресурсов CLEAR достигает трехкратного улучшения глобальной точности по сравнению с равномерным распределением.

English

Inference-time scaling has emerged as a critical avenue for enhancing Large Language Models' performance, yet real-world deployment is constrained by strict computational budgets. In this work, we formulate inference budget allocation as a global constrained optimization problem governed by economic principles. By modeling per-query reasoning utility with a shifted-surge function, we derive an optimal allocation policy based on a global shadow price that equilibrates marginal utility under resource scarcity. Based on this theory, we propose Constrained Latent-utility Equilibrium Allocation for Reasoning (CLEAR). It performs rational abandonment and reallocates resources from insolvent queries to solvable queries near their emergence thresholds. Extensive experiments on several reasoning tasks with different traffic streams demonstrate that CLEAR significantly improves the Pareto frontier of total token cost versus mean accuracy. In resource-scarce regimes, CLEAR achieves up to a 3x improvement in global accuracy compared to uniform allocation.