DeepSpeed-FastGen: Высокопроизводительная генерация текста для больших языковых моделей с использованием MII и DeepSpeed-Inference
DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference
January 9, 2024
Авторы: Connor Holmes, Masahiro Tanaka, Michael Wyatt, Ammar Ahmad Awan, Jeff Rasley, Samyam Rajbhandari, Reza Yazdani Aminabadi, Heyang Qin, Arash Bakhtiari, Lev Kurilenko, Yuxiong He
cs.AI
Аннотация
Развертывание и масштабирование больших языковых моделей (LLM) приобретают критическую важность по мере их проникновения в различные приложения, требующие систем с высокой пропускной способностью и низкой задержкой. Существующие фреймворки испытывают трудности с балансировкой этих требований, особенно для задач с длинными промптами. В данной статье представлена система DeepSpeed-FastGen, которая использует Dynamic SplitFuse — инновационную стратегию композиции промптов и генерации, — обеспечивая до 2,3 раза более высокую эффективную пропускную способность, в среднем в 2 раза меньшую задержку и до 3,7 раза меньшую (на уровне токенов) хвостовую задержку по сравнению с передовыми системами, такими как vLLM. Мы используем синергетическое сочетание DeepSpeed-MII и DeepSpeed-Inference для создания эффективной и удобной системы обслуживания LLM. Продвинутая реализация DeepSpeed-FastGen поддерживает широкий спектр моделей и предлагает как непостоянные, так и постоянные варианты развертывания, адаптированные к различным сценариям использования — от интерактивных сессий до долгосрочных приложений. Мы представляем детальную методологию бенчмаркинга, анализируем производительность с помощью кривых задержки и пропускной способности и исследуем масштабируемость через балансировку нагрузки. Наши оценки демонстрируют значительные улучшения в пропускной способности и задержке для различных моделей и аппаратных конфигураций. Мы обсуждаем наш план дальнейшего развития, включая поддержку более широкого спектра моделей и новых аппаратных платформ. Код DeepSpeed-FastGen доступен для участия и вклада сообщества.
English
The deployment and scaling of large language models (LLMs) have become
critical as they permeate various applications, demanding high-throughput and
low-latency serving systems. Existing frameworks struggle to balance these
requirements, especially for workloads with long prompts. This paper introduces
DeepSpeed-FastGen, a system that employs Dynamic SplitFuse, a novel prompt and
generation composition strategy, to deliver up to 2.3x higher effective
throughput, 2x lower latency on average, and up to 3.7x lower (token-level)
tail latency, compared to state-of-the-art systems like vLLM. We leverage a
synergistic combination of DeepSpeed-MII and DeepSpeed-Inference to provide an
efficient and easy-to-use serving system for LLMs. DeepSpeed-FastGen's advanced
implementation supports a range of models and offers both non-persistent and
persistent deployment options, catering to diverse user scenarios from
interactive sessions to long-running applications. We present a detailed
benchmarking methodology, analyze the performance through latency-throughput
curves, and investigate scalability via load balancing. Our evaluations
demonstrate substantial improvements in throughput and latency across various
models and hardware configurations. We discuss our roadmap for future
enhancements, including broader model support and new hardware backends. The
DeepSpeed-FastGen code is readily available for community engagement and
contribution.