DeepSpeed-FastGen: Geração de Texto de Alta Taxa de Transferência para LLMs via MII e DeepSpeed-Inference
DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference
January 9, 2024
Autores: Connor Holmes, Masahiro Tanaka, Michael Wyatt, Ammar Ahmad Awan, Jeff Rasley, Samyam Rajbhandari, Reza Yazdani Aminabadi, Heyang Qin, Arash Bakhtiari, Lev Kurilenko, Yuxiong He
cs.AI
Resumo
A implantação e escalonamento de grandes modelos de linguagem (LLMs) tornaram-se críticos à medida que permeiam diversas aplicações, exigindo sistemas de serviço de alta taxa de transferência e baixa latência. Os frameworks existentes lutam para equilibrar esses requisitos, especialmente para cargas de trabalho com prompts longos. Este artigo apresenta o DeepSpeed-FastGen, um sistema que emprega o Dynamic SplitFuse, uma nova estratégia de composição de prompts e geração, para oferecer até 2,3x maior taxa de transferência efetiva, 2x menor latência em média e até 3,7x menor latência de cauda (em nível de token), em comparação com sistemas state-of-the-art como o vLLM. Aproveitamos uma combinação sinérgica de DeepSpeed-MII e DeepSpeed-Inference para fornecer um sistema de serviço eficiente e fácil de usar para LLMs. A implementação avançada do DeepSpeed-FastGen suporta uma variedade de modelos e oferece opções de implantação não persistentes e persistentes, atendendo a diversos cenários de usuários, desde sessões interativas até aplicações de longa duração. Apresentamos uma metodologia detalhada de benchmarking, analisamos o desempenho por meio de curvas de latência-taxa de transferência e investigamos a escalabilidade via balanceamento de carga. Nossas avaliações demonstram melhorias substanciais na taxa de transferência e latência em vários modelos e configurações de hardware. Discutimos nosso roteiro para futuras melhorias, incluindo suporte a mais modelos e novos backends de hardware. O código do DeepSpeed-FastGen está prontamente disponível para engajamento e contribuição da comunidade.
English
The deployment and scaling of large language models (LLMs) have become
critical as they permeate various applications, demanding high-throughput and
low-latency serving systems. Existing frameworks struggle to balance these
requirements, especially for workloads with long prompts. This paper introduces
DeepSpeed-FastGen, a system that employs Dynamic SplitFuse, a novel prompt and
generation composition strategy, to deliver up to 2.3x higher effective
throughput, 2x lower latency on average, and up to 3.7x lower (token-level)
tail latency, compared to state-of-the-art systems like vLLM. We leverage a
synergistic combination of DeepSpeed-MII and DeepSpeed-Inference to provide an
efficient and easy-to-use serving system for LLMs. DeepSpeed-FastGen's advanced
implementation supports a range of models and offers both non-persistent and
persistent deployment options, catering to diverse user scenarios from
interactive sessions to long-running applications. We present a detailed
benchmarking methodology, analyze the performance through latency-throughput
curves, and investigate scalability via load balancing. Our evaluations
demonstrate substantial improvements in throughput and latency across various
models and hardware configurations. We discuss our roadmap for future
enhancements, including broader model support and new hardware backends. The
DeepSpeed-FastGen code is readily available for community engagement and
contribution.