ChatPaper.aiChatPaper

DeepSpeed-FastGen: Generazione di Testo ad Alto Rendimento per LLM tramite MII e DeepSpeed-Inference

DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference

January 9, 2024
Autori: Connor Holmes, Masahiro Tanaka, Michael Wyatt, Ammar Ahmad Awan, Jeff Rasley, Samyam Rajbhandari, Reza Yazdani Aminabadi, Heyang Qin, Arash Bakhtiari, Lev Kurilenko, Yuxiong He
cs.AI

Abstract

Il dispiegamento e il ridimensionamento dei grandi modelli linguistici (LLM) sono diventati cruciali man mano che permeano varie applicazioni, richiedendo sistemi di servizio ad alta produttività e bassa latenza. I framework esistenti faticano a bilanciare questi requisiti, specialmente per carichi di lavoro con prompt lunghi. Questo articolo introduce DeepSpeed-FastGen, un sistema che utilizza Dynamic SplitFuse, una nuova strategia di composizione di prompt e generazione, per offrire fino a 2,3 volte una produttività effettiva maggiore, una latenza media 2 volte inferiore e fino a 3,7 volte una latenza di coda (a livello di token) inferiore, rispetto a sistemi all'avanguardia come vLLM. Sfruttiamo una combinazione sinergica di DeepSpeed-MII e DeepSpeed-Inference per fornire un sistema di servizio efficiente e facile da usare per gli LLM. L'implementazione avanzata di DeepSpeed-FastGen supporta una gamma di modelli e offre opzioni di dispiegamento sia non persistenti che persistenti, adattandosi a diversi scenari d'uso, dalle sessioni interattive alle applicazioni di lunga durata. Presentiamo una metodologia di benchmarking dettagliata, analizziamo le prestazioni attraverso curve di latenza-produttività e investigiamo la scalabilità tramite bilanciamento del carico. Le nostre valutazioni dimostrano miglioramenti sostanziali nella produttività e nella latenza attraverso vari modelli e configurazioni hardware. Discutiamo la nostra roadmap per futuri miglioramenti, inclusi un supporto più ampio per i modelli e nuovi backend hardware. Il codice di DeepSpeed-FastGen è prontamente disponibile per il coinvolgimento e il contributo della comunità.
English
The deployment and scaling of large language models (LLMs) have become critical as they permeate various applications, demanding high-throughput and low-latency serving systems. Existing frameworks struggle to balance these requirements, especially for workloads with long prompts. This paper introduces DeepSpeed-FastGen, a system that employs Dynamic SplitFuse, a novel prompt and generation composition strategy, to deliver up to 2.3x higher effective throughput, 2x lower latency on average, and up to 3.7x lower (token-level) tail latency, compared to state-of-the-art systems like vLLM. We leverage a synergistic combination of DeepSpeed-MII and DeepSpeed-Inference to provide an efficient and easy-to-use serving system for LLMs. DeepSpeed-FastGen's advanced implementation supports a range of models and offers both non-persistent and persistent deployment options, catering to diverse user scenarios from interactive sessions to long-running applications. We present a detailed benchmarking methodology, analyze the performance through latency-throughput curves, and investigate scalability via load balancing. Our evaluations demonstrate substantial improvements in throughput and latency across various models and hardware configurations. We discuss our roadmap for future enhancements, including broader model support and new hardware backends. The DeepSpeed-FastGen code is readily available for community engagement and contribution.
PDF152December 15, 2024