学習によるランキングを用いた効率的なLLMスケジューリング
Efficient LLM Scheduling by Learning to Rank
August 28, 2024
著者: Yichao Fu, Siqi Zhu, Runlong Su, Aurick Qiao, Ion Stoica, Hao Zhang
cs.AI
要旨
大規模言語モデル(LLM)の推論において、LLMリクエストの出力長は通常、事前には不明と見なされます。そのため、ほとんどのLLMサービングシステムは、単純なファーストカムファーストサーブ(FCFS)スケジューリング戦略を採用しており、ヘッドオブライン(HOL)ブロッキングとスループットおよびサービス品質の低下を引き起こしています。本論文では、この仮定を再検討し、各リクエストの正確な生成長を予測することは不可能であるが、学習によるランク付けを使用して、リクエストのバッチ内での出力長の相対的なランクを予測することが可能であることを示します。ランキング情報は、リクエストのスケジューリングに有益なガイダンスを提供します。この洞察を基に、既存のアプローチよりも最短ジョブ優先(SJF)スケジュールをより適切に近似できるLLM推論およびサービング用の新しいスケジューラを開発します。このスケジューラを最先端のLLMサービングシステムに統合し、チャットボットサービスにおけるレイテンシーの2.8倍の低減と合成データ生成におけるスループットの6.5倍の向上を示します。当該コードは、https://github.com/hao-ai-lab/vllm-ltr.git で入手可能です。
English
In Large Language Model (LLM) inference, the output length of an LLM request
is typically regarded as not known a priori. Consequently, most LLM serving
systems employ a simple First-come-first-serve (FCFS) scheduling strategy,
leading to Head-Of-Line (HOL) blocking and reduced throughput and service
quality. In this paper, we reexamine this assumption -- we show that, although
predicting the exact generation length of each request is infeasible, it is
possible to predict the relative ranks of output lengths in a batch of
requests, using learning to rank. The ranking information offers valuable
guidance for scheduling requests. Building on this insight, we develop a novel
scheduler for LLM inference and serving that can approximate the
shortest-job-first (SJF) schedule better than existing approaches. We integrate
this scheduler with the state-of-the-art LLM serving system and show
significant performance improvement in several important applications: 2.8x
lower latency in chatbot serving and 6.5x higher throughput in synthetic data
generation. Our code is available at https://github.com/hao-ai-lab/vllm-ltr.gitSummary
AI-Generated Summary