ChatPaper.aiChatPaper

Servir efficacement les programmes de raisonnement LLM avec Certaindex

Efficiently Serving LLM Reasoning Programs with Certaindex

December 30, 2024
Auteurs: Yichao Fu, Junda Chen, Siqi Zhu, Zheyu Fu, Zhongdongming Dai, Aurick Qiao, Hao Zhang
cs.AI

Résumé

La rapide évolution des grands modèles de langage (GML) a débloqué leurs capacités dans des tâches de raisonnement avancées telles que la résolution de problèmes mathématiques, la génération de code et l'analyse juridique. Au cœur de ce progrès se trouvent les algorithmes de raisonnement en temps d'inférence, qui affinent les sorties en explorant plusieurs chemins de solution, au prix d'une augmentation des demandes de calcul et des latences de réponse. Les systèmes de service existants échouent à s'adapter aux comportements d'échelle de ces algorithmes ou à la difficulté variable des requêtes, ce qui entraîne une utilisation inefficace des ressources et des objectifs de latence non atteints. Nous présentons Dynasor, un système qui optimise le calcul en temps d'inférence pour les requêtes de raisonnement des GML. Contrairement aux moteurs traditionnels, Dynasor suit et planifie les requêtes au sein des requêtes de raisonnement et utilise Certaindex, un proxy qui mesure les progrès du raisonnement statistique basé sur la certitude du modèle, pour guider dynamiquement l'allocation de calcul. Dynasor co-adapte la planification avec les progrès du raisonnement : il alloue plus de calcul aux requêtes difficiles, réduit le calcul pour les plus simples, et met fin prématurément aux requêtes peu prometteuses, équilibrant précision, latence et coût. Sur des ensembles de données et des algorithmes divers, Dynasor réduit le calcul jusqu'à 50 % en traitement par lots et maintient des taux de requêtes 3,3 fois plus élevés ou des objectifs de latence 4,7 fois plus serrés en service en ligne.
English
The rapid evolution of large language models (LLMs) has unlocked their capabilities in advanced reasoning tasks like mathematical problem-solving, code generation, and legal analysis. Central to this progress are inference-time reasoning algorithms, which refine outputs by exploring multiple solution paths, at the cost of increasing compute demands and response latencies. Existing serving systems fail to adapt to the scaling behaviors of these algorithms or the varying difficulty of queries, leading to inefficient resource use and unmet latency targets. We present Dynasor, a system that optimizes inference-time compute for LLM reasoning queries. Unlike traditional engines, Dynasor tracks and schedules requests within reasoning queries and uses Certaindex, a proxy that measures statistical reasoning progress based on model certainty, to guide compute allocation dynamically. Dynasor co-adapts scheduling with reasoning progress: it allocates more compute to hard queries, reduces compute for simpler ones, and terminates unpromising queries early, balancing accuracy, latency, and cost. On diverse datasets and algorithms, Dynasor reduces compute by up to 50% in batch processing and sustaining 3.3x higher query rates or 4.7x tighter latency SLOs in online serving.

Summary

AI-Generated Summary

PDF382December 31, 2024