ChatPaper.aiChatPaper

DeepSpeed-FastGen: Generación de Texto de Alto Rendimiento para LLMs mediante MII y DeepSpeed-Inference

DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference

January 9, 2024
Autores: Connor Holmes, Masahiro Tanaka, Michael Wyatt, Ammar Ahmad Awan, Jeff Rasley, Samyam Rajbhandari, Reza Yazdani Aminabadi, Heyang Qin, Arash Bakhtiari, Lev Kurilenko, Yuxiong He
cs.AI

Resumen

El despliegue y escalado de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) se ha vuelto crucial a medida que estos se integran en diversas aplicaciones, exigiendo sistemas de servicio de alto rendimiento y baja latencia. Los marcos existentes luchan por equilibrar estos requisitos, especialmente para cargas de trabajo con prompts largos. Este artículo presenta DeepSpeed-FastGen, un sistema que emplea Dynamic SplitFuse, una novedosa estrategia de composición de prompts y generación, para ofrecer hasta 2.3 veces mayor rendimiento efectivo, 2 veces menor latencia en promedio y hasta 3.7 veces menor latencia en el peor caso (a nivel de tokens), en comparación con sistemas de vanguardia como vLLM. Aprovechamos una combinación sinérgica de DeepSpeed-MII y DeepSpeed-Inference para proporcionar un sistema de servicio eficiente y fácil de usar para LLMs. La implementación avanzada de DeepSpeed-FastGen admite una variedad de modelos y ofrece opciones de despliegue tanto no persistentes como persistentes, adaptándose a diversos escenarios de uso, desde sesiones interactivas hasta aplicaciones de larga duración. Presentamos una metodología detallada de evaluación comparativa, analizamos el rendimiento mediante curvas de latencia-rendimiento e investigamos la escalabilidad mediante el equilibrio de carga. Nuestras evaluaciones demuestran mejoras sustanciales en rendimiento y latencia en varios modelos y configuraciones de hardware. Discutimos nuestra hoja de ruta para futuras mejoras, incluyendo un mayor soporte de modelos y nuevos backends de hardware. El código de DeepSpeed-FastGen está disponible para la participación y contribución de la comunidad.
English
The deployment and scaling of large language models (LLMs) have become critical as they permeate various applications, demanding high-throughput and low-latency serving systems. Existing frameworks struggle to balance these requirements, especially for workloads with long prompts. This paper introduces DeepSpeed-FastGen, a system that employs Dynamic SplitFuse, a novel prompt and generation composition strategy, to deliver up to 2.3x higher effective throughput, 2x lower latency on average, and up to 3.7x lower (token-level) tail latency, compared to state-of-the-art systems like vLLM. We leverage a synergistic combination of DeepSpeed-MII and DeepSpeed-Inference to provide an efficient and easy-to-use serving system for LLMs. DeepSpeed-FastGen's advanced implementation supports a range of models and offers both non-persistent and persistent deployment options, catering to diverse user scenarios from interactive sessions to long-running applications. We present a detailed benchmarking methodology, analyze the performance through latency-throughput curves, and investigate scalability via load balancing. Our evaluations demonstrate substantial improvements in throughput and latency across various models and hardware configurations. We discuss our roadmap for future enhancements, including broader model support and new hardware backends. The DeepSpeed-FastGen code is readily available for community engagement and contribution.
PDF152December 15, 2024