ChatPaper.aiChatPaper

DeepSpeed-FastGen : Génération de texte à haut débit pour les LLM via MII et DeepSpeed-Inference

DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference

January 9, 2024
Auteurs: Connor Holmes, Masahiro Tanaka, Michael Wyatt, Ammar Ahmad Awan, Jeff Rasley, Samyam Rajbhandari, Reza Yazdani Aminabadi, Heyang Qin, Arash Bakhtiari, Lev Kurilenko, Yuxiong He
cs.AI

Résumé

Le déploiement et la mise à l'échelle des grands modèles de langage (LLMs) sont devenus critiques à mesure qu'ils s'intègrent dans diverses applications, exigeant des systèmes de service à haut débit et à faible latence. Les frameworks existants peinent à équilibrer ces exigences, en particulier pour les charges de travail comportant des prompts longs. Cet article présente DeepSpeed-FastGen, un système qui utilise Dynamic SplitFuse, une nouvelle stratégie de composition de prompts et de génération, pour offrir un débit effectif jusqu'à 2,3 fois supérieur, une latence moyenne 2 fois plus faible et une latence en queue (au niveau des tokens) jusqu'à 3,7 fois plus faible, par rapport aux systèmes de pointe comme vLLM. Nous tirons parti d'une combinaison synergique de DeepSpeed-MII et DeepSpeed-Inference pour fournir un système de service efficace et facile à utiliser pour les LLMs. L'implémentation avancée de DeepSpeed-FastGen prend en charge une gamme de modèles et propose des options de déploiement non persistantes et persistantes, répondant à divers scénarios utilisateurs, des sessions interactives aux applications de longue durée. Nous présentons une méthodologie de benchmarking détaillée, analysons les performances à travers des courbes latence-débit et étudions la scalabilité via l'équilibrage de charge. Nos évaluations démontrent des améliorations substantielles en termes de débit et de latence pour divers modèles et configurations matérielles. Nous discutons de notre feuille de route pour les améliorations futures, incluant un support élargi de modèles et de nouveaux backends matériels. Le code de DeepSpeed-FastGen est facilement accessible pour l'engagement et la contribution de la communauté.
English
The deployment and scaling of large language models (LLMs) have become critical as they permeate various applications, demanding high-throughput and low-latency serving systems. Existing frameworks struggle to balance these requirements, especially for workloads with long prompts. This paper introduces DeepSpeed-FastGen, a system that employs Dynamic SplitFuse, a novel prompt and generation composition strategy, to deliver up to 2.3x higher effective throughput, 2x lower latency on average, and up to 3.7x lower (token-level) tail latency, compared to state-of-the-art systems like vLLM. We leverage a synergistic combination of DeepSpeed-MII and DeepSpeed-Inference to provide an efficient and easy-to-use serving system for LLMs. DeepSpeed-FastGen's advanced implementation supports a range of models and offers both non-persistent and persistent deployment options, catering to diverse user scenarios from interactive sessions to long-running applications. We present a detailed benchmarking methodology, analyze the performance through latency-throughput curves, and investigate scalability via load balancing. Our evaluations demonstrate substantial improvements in throughput and latency across various models and hardware configurations. We discuss our roadmap for future enhancements, including broader model support and new hardware backends. The DeepSpeed-FastGen code is readily available for community engagement and contribution.
PDF152December 15, 2024