DeepSpeed-FastGen: Hoogdoorvoertekstgeneratie voor LLM's via MII en DeepSpeed-Inference
DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference
January 9, 2024
Auteurs: Connor Holmes, Masahiro Tanaka, Michael Wyatt, Ammar Ahmad Awan, Jeff Rasley, Samyam Rajbhandari, Reza Yazdani Aminabadi, Heyang Qin, Arash Bakhtiari, Lev Kurilenko, Yuxiong He
cs.AI
Samenvatting
De inzet en schaalbaarheid van grote taalmodellen (LLMs) zijn cruciaal geworden nu ze doordringen in diverse toepassingen, wat hoge doorvoer en systemen met lage latentie vereist. Bestaande frameworks hebben moeite om aan deze eisen te voldoen, vooral bij workloads met lange prompts. Dit artikel introduceert DeepSpeed-FastGen, een systeem dat gebruikmaakt van Dynamic SplitFuse, een nieuwe strategie voor het samenstellen van prompts en generatie, om tot 2,3x hogere effectieve doorvoer, gemiddeld 2x lagere latentie en tot 3,7x lagere (token-level) staartlatentie te bieden in vergelijking met state-of-the-art systemen zoals vLLM. We benutten een synergetische combinatie van DeepSpeed-MII en DeepSpeed-Inference om een efficiënt en gebruiksvriendelijk serveersysteem voor LLMs te bieden. De geavanceerde implementatie van DeepSpeed-FastGen ondersteunt een reeks modellen en biedt zowel niet-persistente als persistente implementatieopties, wat aansluit bij diverse gebruikersscenario's, van interactieve sessies tot langlopende applicaties. We presenteren een gedetailleerde benchmarkmethodologie, analyseren de prestaties via latentie-doorvoercurves en onderzoeken schaalbaarheid via load balancing. Onze evaluaties tonen aanzienlijke verbeteringen in doorvoer en latentie bij verschillende modellen en hardwareconfiguraties. We bespreken onze roadmap voor toekomstige verbeteringen, waaronder bredere modelondersteuning en nieuwe hardwarebackends. De DeepSpeed-FastGen-code is direct beschikbaar voor gemeenschapsbetrokkenheid en bijdragen.
English
The deployment and scaling of large language models (LLMs) have become
critical as they permeate various applications, demanding high-throughput and
low-latency serving systems. Existing frameworks struggle to balance these
requirements, especially for workloads with long prompts. This paper introduces
DeepSpeed-FastGen, a system that employs Dynamic SplitFuse, a novel prompt and
generation composition strategy, to deliver up to 2.3x higher effective
throughput, 2x lower latency on average, and up to 3.7x lower (token-level)
tail latency, compared to state-of-the-art systems like vLLM. We leverage a
synergistic combination of DeepSpeed-MII and DeepSpeed-Inference to provide an
efficient and easy-to-use serving system for LLMs. DeepSpeed-FastGen's advanced
implementation supports a range of models and offers both non-persistent and
persistent deployment options, catering to diverse user scenarios from
interactive sessions to long-running applications. We present a detailed
benchmarking methodology, analyze the performance through latency-throughput
curves, and investigate scalability via load balancing. Our evaluations
demonstrate substantial improvements in throughput and latency across various
models and hardware configurations. We discuss our roadmap for future
enhancements, including broader model support and new hardware backends. The
DeepSpeed-FastGen code is readily available for community engagement and
contribution.