DeepSpeed-FastGen : Génération de texte à haut débit pour les LLM via MII et DeepSpeed-Inference
DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference
January 9, 2024
Auteurs: Connor Holmes, Masahiro Tanaka, Michael Wyatt, Ammar Ahmad Awan, Jeff Rasley, Samyam Rajbhandari, Reza Yazdani Aminabadi, Heyang Qin, Arash Bakhtiari, Lev Kurilenko, Yuxiong He
cs.AI
Résumé
Le déploiement et la mise à l'échelle des grands modèles de langage (LLMs) sont devenus critiques à mesure qu'ils s'intègrent dans diverses applications, exigeant des systèmes de service à haut débit et à faible latence. Les frameworks existants peinent à équilibrer ces exigences, en particulier pour les charges de travail comportant des prompts longs. Cet article présente DeepSpeed-FastGen, un système qui utilise Dynamic SplitFuse, une nouvelle stratégie de composition de prompts et de génération, pour offrir un débit effectif jusqu'à 2,3 fois supérieur, une latence moyenne 2 fois plus faible et une latence en queue (au niveau des tokens) jusqu'à 3,7 fois plus faible, par rapport aux systèmes de pointe comme vLLM. Nous tirons parti d'une combinaison synergique de DeepSpeed-MII et DeepSpeed-Inference pour fournir un système de service efficace et facile à utiliser pour les LLMs. L'implémentation avancée de DeepSpeed-FastGen prend en charge une gamme de modèles et propose des options de déploiement non persistantes et persistantes, répondant à divers scénarios utilisateurs, des sessions interactives aux applications de longue durée. Nous présentons une méthodologie de benchmarking détaillée, analysons les performances à travers des courbes latence-débit et étudions la scalabilité via l'équilibrage de charge. Nos évaluations démontrent des améliorations substantielles en termes de débit et de latence pour divers modèles et configurations matérielles. Nous discutons de notre feuille de route pour les améliorations futures, incluant un support élargi de modèles et de nouveaux backends matériels. Le code de DeepSpeed-FastGen est facilement accessible pour l'engagement et la contribution de la communauté.
English
The deployment and scaling of large language models (LLMs) have become
critical as they permeate various applications, demanding high-throughput and
low-latency serving systems. Existing frameworks struggle to balance these
requirements, especially for workloads with long prompts. This paper introduces
DeepSpeed-FastGen, a system that employs Dynamic SplitFuse, a novel prompt and
generation composition strategy, to deliver up to 2.3x higher effective
throughput, 2x lower latency on average, and up to 3.7x lower (token-level)
tail latency, compared to state-of-the-art systems like vLLM. We leverage a
synergistic combination of DeepSpeed-MII and DeepSpeed-Inference to provide an
efficient and easy-to-use serving system for LLMs. DeepSpeed-FastGen's advanced
implementation supports a range of models and offers both non-persistent and
persistent deployment options, catering to diverse user scenarios from
interactive sessions to long-running applications. We present a detailed
benchmarking methodology, analyze the performance through latency-throughput
curves, and investigate scalability via load balancing. Our evaluations
demonstrate substantial improvements in throughput and latency across various
models and hardware configurations. We discuss our roadmap for future
enhancements, including broader model support and new hardware backends. The
DeepSpeed-FastGen code is readily available for community engagement and
contribution.