ChatPaper.aiChatPaper

DeepSpeed-FastGen: MIIとDeepSpeed-Inferenceによる大規模言語モデルの高スループットテキスト生成

DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference

January 9, 2024
著者: Connor Holmes, Masahiro Tanaka, Michael Wyatt, Ammar Ahmad Awan, Jeff Rasley, Samyam Rajbhandari, Reza Yazdani Aminabadi, Heyang Qin, Arash Bakhtiari, Lev Kurilenko, Yuxiong He
cs.AI

要旨

大規模言語モデル(LLM)の展開とスケーリングは、様々なアプリケーションに浸透し、高スループットと低レイテンシを要求するサービスシステムとして重要な課題となっています。既存のフレームワークは、特に長いプロンプトを伴うワークロードにおいて、これらの要件をバランスよく満たすことに苦戦しています。本論文では、DeepSpeed-FastGenを紹介します。このシステムは、新しいプロンプトと生成の構成戦略であるDynamic SplitFuseを採用し、vLLMのような最先端のシステムと比較して、最大2.3倍の有効スループット、平均2倍の低レイテンシ、および最大3.7倍の低い(トークンレベルの)テールレイテンシを実現します。DeepSpeed-MIIとDeepSpeed-Inferenceの相乗効果を活用し、LLM向けの効率的で使いやすいサービスシステムを提供します。DeepSpeed-FastGenの高度な実装は、様々なモデルをサポートし、非永続的および永続的な展開オプションを提供し、インタラクティブセッションから長時間実行されるアプリケーションまで、多様なユーザーシナリオに対応します。詳細なベンチマーク手法を提示し、レイテンシ-スループット曲線を通じて性能を分析し、ロードバランシングによるスケーラビリティを調査します。評価結果は、様々なモデルとハードウェア構成において、スループットとレイテンシの大幅な改善を示しています。今後の拡張に向けたロードマップについても議論し、より広範なモデルサポートや新しいハードウェアバックエンドを含む今後の改善点について述べます。DeepSpeed-FastGenのコードは、コミュニティの参加と貢献のために容易に利用可能です。
English
The deployment and scaling of large language models (LLMs) have become critical as they permeate various applications, demanding high-throughput and low-latency serving systems. Existing frameworks struggle to balance these requirements, especially for workloads with long prompts. This paper introduces DeepSpeed-FastGen, a system that employs Dynamic SplitFuse, a novel prompt and generation composition strategy, to deliver up to 2.3x higher effective throughput, 2x lower latency on average, and up to 3.7x lower (token-level) tail latency, compared to state-of-the-art systems like vLLM. We leverage a synergistic combination of DeepSpeed-MII and DeepSpeed-Inference to provide an efficient and easy-to-use serving system for LLMs. DeepSpeed-FastGen's advanced implementation supports a range of models and offers both non-persistent and persistent deployment options, catering to diverse user scenarios from interactive sessions to long-running applications. We present a detailed benchmarking methodology, analyze the performance through latency-throughput curves, and investigate scalability via load balancing. Our evaluations demonstrate substantial improvements in throughput and latency across various models and hardware configurations. We discuss our roadmap for future enhancements, including broader model support and new hardware backends. The DeepSpeed-FastGen code is readily available for community engagement and contribution.
PDF152December 15, 2024