Servir efficacement les programmes de raisonnement LLM avec Certaindex
Efficiently Serving LLM Reasoning Programs with Certaindex
December 30, 2024
Auteurs: Yichao Fu, Junda Chen, Siqi Zhu, Zheyu Fu, Zhongdongming Dai, Aurick Qiao, Hao Zhang
cs.AI
Résumé
La rapide évolution des grands modèles de langage (GML) a débloqué leurs capacités dans des tâches de raisonnement avancées telles que la résolution de problèmes mathématiques, la génération de code et l'analyse juridique. Au cœur de ce progrès se trouvent les algorithmes de raisonnement en temps d'inférence, qui affinent les sorties en explorant plusieurs chemins de solution, au prix d'une augmentation des demandes de calcul et des latences de réponse. Les systèmes de service existants échouent à s'adapter aux comportements d'échelle de ces algorithmes ou à la difficulté variable des requêtes, ce qui entraîne une utilisation inefficace des ressources et des objectifs de latence non atteints.
Nous présentons Dynasor, un système qui optimise le calcul en temps d'inférence pour les requêtes de raisonnement des GML. Contrairement aux moteurs traditionnels, Dynasor suit et planifie les requêtes au sein des requêtes de raisonnement et utilise Certaindex, un proxy qui mesure les progrès du raisonnement statistique basé sur la certitude du modèle, pour guider dynamiquement l'allocation de calcul. Dynasor co-adapte la planification avec les progrès du raisonnement : il alloue plus de calcul aux requêtes difficiles, réduit le calcul pour les plus simples, et met fin prématurément aux requêtes peu prometteuses, équilibrant précision, latence et coût. Sur des ensembles de données et des algorithmes divers, Dynasor réduit le calcul jusqu'à 50 % en traitement par lots et maintient des taux de requêtes 3,3 fois plus élevés ou des objectifs de latence 4,7 fois plus serrés en service en ligne.
English
The rapid evolution of large language models (LLMs) has unlocked their
capabilities in advanced reasoning tasks like mathematical problem-solving,
code generation, and legal analysis. Central to this progress are
inference-time reasoning algorithms, which refine outputs by exploring multiple
solution paths, at the cost of increasing compute demands and response
latencies. Existing serving systems fail to adapt to the scaling behaviors of
these algorithms or the varying difficulty of queries, leading to inefficient
resource use and unmet latency targets.
We present Dynasor, a system that optimizes inference-time compute for LLM
reasoning queries. Unlike traditional engines, Dynasor tracks and schedules
requests within reasoning queries and uses Certaindex, a proxy that measures
statistical reasoning progress based on model certainty, to guide compute
allocation dynamically. Dynasor co-adapts scheduling with reasoning progress:
it allocates more compute to hard queries, reduces compute for simpler ones,
and terminates unpromising queries early, balancing accuracy, latency, and
cost. On diverse datasets and algorithms, Dynasor reduces compute by up to 50%
in batch processing and sustaining 3.3x higher query rates or 4.7x tighter
latency SLOs in online serving.Summary
AI-Generated Summary