ChatPaper.aiChatPaper

DeepSpeed-FastGen: MII와 DeepSpeed-Inference를 통한 대규모 언어 모델의 고처리량 텍스트 생성

DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference

January 9, 2024
저자: Connor Holmes, Masahiro Tanaka, Michael Wyatt, Ammar Ahmad Awan, Jeff Rasley, Samyam Rajbhandari, Reza Yazdani Aminabadi, Heyang Qin, Arash Bakhtiari, Lev Kurilenko, Yuxiong He
cs.AI

초록

대규모 언어 모델(LLM)의 배포 및 확장은 다양한 애플리케이션에 침투하면서 높은 처리량과 낮은 지연 시간을 요구하는 서빙 시스템의 필요성이 중요해지고 있다. 기존 프레임워크는 특히 긴 프롬프트를 가진 작업 부하에서 이러한 요구 사항을 균형 있게 충족시키는 데 어려움을 겪고 있다. 본 논문은 DeepSpeed-FastGen을 소개하며, 이 시스템은 새로운 프롬프트 및 생성 조합 전략인 Dynamic SplitFuse를 사용하여 vLLM과 같은 최신 시스템 대비 최대 2.3배 높은 유효 처리량, 평균 2배 낮은 지연 시간, 그리고 최대 3.7배 낮은 (토큰 수준) 꼬리 지연 시간을 제공한다. 우리는 DeepSpeed-MII와 DeepSpeed-Inference의 시너지 효과를 활용하여 LLM을 위한 효율적이고 사용하기 쉬운 서빙 시스템을 제공한다. DeepSpeed-FastGen의 고급 구현은 다양한 모델을 지원하며, 비지속적 및 지속적 배포 옵션을 제공하여 인터랙티브 세션부터 장기 실행 애플리케이션까지 다양한 사용자 시나리오에 대응한다. 우리는 상세한 벤치마킹 방법론을 제시하고, 지연 시간-처리량 곡선을 통해 성능을 분석하며, 로드 밸런싱을 통해 확장성을 조사한다. 평가 결과, 다양한 모델과 하드웨어 구성에서 처리량과 지연 시간의 상당한 개선을 입증한다. 우리는 향후 개선을 위한 로드맵을 논의하며, 더 넓은 모델 지원과 새로운 하드웨어 백엔드를 포함한다. DeepSpeed-FastGen 코드는 커뮤니티 참여와 기여를 위해 쉽게 이용 가능하다.
English
The deployment and scaling of large language models (LLMs) have become critical as they permeate various applications, demanding high-throughput and low-latency serving systems. Existing frameworks struggle to balance these requirements, especially for workloads with long prompts. This paper introduces DeepSpeed-FastGen, a system that employs Dynamic SplitFuse, a novel prompt and generation composition strategy, to deliver up to 2.3x higher effective throughput, 2x lower latency on average, and up to 3.7x lower (token-level) tail latency, compared to state-of-the-art systems like vLLM. We leverage a synergistic combination of DeepSpeed-MII and DeepSpeed-Inference to provide an efficient and easy-to-use serving system for LLMs. DeepSpeed-FastGen's advanced implementation supports a range of models and offers both non-persistent and persistent deployment options, catering to diverse user scenarios from interactive sessions to long-running applications. We present a detailed benchmarking methodology, analyze the performance through latency-throughput curves, and investigate scalability via load balancing. Our evaluations demonstrate substantial improvements in throughput and latency across various models and hardware configurations. We discuss our roadmap for future enhancements, including broader model support and new hardware backends. The DeepSpeed-FastGen code is readily available for community engagement and contribution.
PDF152December 15, 2024