ChatPaper.aiChatPaper

DeepSpeed-FastGen: Hochdurchsatz-Textgenerierung für LLMs mittels MII und DeepSpeed-Inference

DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference

January 9, 2024
Autoren: Connor Holmes, Masahiro Tanaka, Michael Wyatt, Ammar Ahmad Awan, Jeff Rasley, Samyam Rajbhandari, Reza Yazdani Aminabadi, Heyang Qin, Arash Bakhtiari, Lev Kurilenko, Yuxiong He
cs.AI

Zusammenfassung

Die Bereitstellung und Skalierung großer Sprachmodelle (LLMs) hat zunehmend an Bedeutung gewonnen, da sie in verschiedenen Anwendungen eingesetzt werden und Systeme mit hohem Durchsatz und geringer Latenz erfordern. Bestehende Frameworks haben Schwierigkeiten, diese Anforderungen zu erfüllen, insbesondere bei Workloads mit langen Prompts. Dieses Paper stellt DeepSpeed-FastGen vor, ein System, das Dynamic SplitFuse, eine neuartige Strategie zur Zusammensetzung von Prompts und Generierung, einsetzt, um einen bis zu 2,3-fach höheren effektiven Durchsatz, eine durchschnittlich 2-fach geringere Latenz und eine bis zu 3,7-fach geringere (Token-Level-)Tail-Latenz im Vergleich zu state-of-the-art Systemen wie vLLM zu erreichen. Wir nutzen eine synergetische Kombination aus DeepSpeed-MII und DeepSpeed-Inference, um ein effizientes und benutzerfreundliches Bereitstellungssystem für LLMs anzubieten. Die fortschrittliche Implementierung von DeepSpeed-FastGen unterstützt eine Vielzahl von Modellen und bietet sowohl nicht-persistente als auch persistente Bereitstellungsoptionen, die verschiedene Nutzerszenarien von interaktiven Sitzungen bis hin zu langlaufenden Anwendungen abdecken. Wir präsentieren eine detaillierte Benchmarking-Methodik, analysieren die Leistung anhand von Latenz-Durchsatz-Kurven und untersuchen die Skalierbarkeit durch Lastverteilung. Unsere Auswertungen zeigen erhebliche Verbesserungen in Bezug auf Durchsatz und Latenz über verschiedene Modelle und Hardwarekonfigurationen hinweg. Wir diskutieren unseren Fahrplan für zukünftige Verbesserungen, einschließlich einer breiteren Modellunterstützung und neuer Hardware-Backends. Der Code von DeepSpeed-FastGen ist für die Beteiligung und Beiträge der Community frei verfügbar.
English
The deployment and scaling of large language models (LLMs) have become critical as they permeate various applications, demanding high-throughput and low-latency serving systems. Existing frameworks struggle to balance these requirements, especially for workloads with long prompts. This paper introduces DeepSpeed-FastGen, a system that employs Dynamic SplitFuse, a novel prompt and generation composition strategy, to deliver up to 2.3x higher effective throughput, 2x lower latency on average, and up to 3.7x lower (token-level) tail latency, compared to state-of-the-art systems like vLLM. We leverage a synergistic combination of DeepSpeed-MII and DeepSpeed-Inference to provide an efficient and easy-to-use serving system for LLMs. DeepSpeed-FastGen's advanced implementation supports a range of models and offers both non-persistent and persistent deployment options, catering to diverse user scenarios from interactive sessions to long-running applications. We present a detailed benchmarking methodology, analyze the performance through latency-throughput curves, and investigate scalability via load balancing. Our evaluations demonstrate substantial improvements in throughput and latency across various models and hardware configurations. We discuss our roadmap for future enhancements, including broader model support and new hardware backends. The DeepSpeed-FastGen code is readily available for community engagement and contribution.
PDF152December 15, 2024