FlowPrefill: LLMサービングにおける先頭ブロッキングを緩和するため、プリエンプションとプリフィルスケジューリングの粒度を分離する手法

要旨

大規模言語モデル(LLM)への需要増大に伴い、推論システムは多様なサービスレベル目標(SLO)を備えた多数の同時リクエストを処理する必要が生じている。これにより、計算集約的なプリフィル段階における先頭ブロッキング(HoL)が深刻化し、長時間実行されるリクエストがリソースを独占することで高優先度リクエストの遅延を招き、時間内初トークン(TTFT) SLO違反が広範に発生している。チャンク化プリフィルは割り込み可能性を実現するものの、応答性とスループットの間には本質的なトレードオフが存在する。チャンクサイズを小さくすると応答レイテンシは改善されるが計算効率が低下し、逆に大きくするとスループットは最大化されるがブロッキングが悪化する。この問題解決には適応的なプリエンプション機構が不可欠であるが、実行粒度とスケジューリングオーバーヘッドの動的バランス調整は依然として主要な課題となっている。本論文では、プリエンプション粒度とスケジューリング頻度を分離することでこの矛盾を解決するTTFT-有効スループット最適化型推論システムFlowPrefillを提案する。適応的プリフィルスケジューリングを実現するため、FlowPrefillは二つの核心技術を導入する。(1) 演算子レベルプリエンプション：固定小チャンク化に伴う効率低下を回避しつつ、演算子境界を活用した細粒度実行割り込みを可能にする。(2) イベント駆動型スケジューリング：リクエスト到着/完了イベント時のみスケジューリング判断を起動することで、効率的なプリエンプション応答性を維持しつつ制御プレーンオーバーヘッドを最小化する。実稼働環境トレースを用いた評価では、FlowPrefillが先進システムと比較して最大5.6倍の有効スループット向上を達成しつつ、異種SLOを満たすことを実証した。

English

The growing demand for large language models (LLMs) requires serving systems to handle many concurrent requests with diverse service level objectives (SLOs). This exacerbates head-of-line (HoL) blocking during the compute-intensive prefill phase, where long-running requests monopolize resources and delay higher-priority ones, leading to widespread time-to-first-token (TTFT) SLO violations. While chunked prefill enables interruptibility, it introduces an inherent trade-off between responsiveness and throughput: reducing chunk size improves response latency but degrades computational efficiency, whereas increasing chunk size maximizes throughput but exacerbates blocking. This necessitates an adaptive preemption mechanism. However, dynamically balancing execution granularity against scheduling overheads remains a key challenge. In this paper, we propose FlowPrefill, a TTFT-goodput-optimized serving system that resolves this conflict by decoupling preemption granularity from scheduling frequency. To achieve adaptive prefill scheduling, FlowPrefill introduces two key innovations: 1) Operator-Level Preemption, which leverages operator boundaries to enable fine-grained execution interruption without the efficiency loss associated with fixed small chunking; and 2) Event-Driven Scheduling, which triggers scheduling decisions only upon request arrival or completion events, thereby supporting efficient preemption responsiveness while minimizing control-plane overhead. Evaluation on real-world production traces shows that FlowPrefill improves maximum goodput by up to 5.6times compared to state-of-the-art systems while satisfying heterogeneous SLOs.

FlowPrefill: LLMサービングにおける先頭ブロッキングを緩和するため、プリエンプションとプリフィルスケジューリングの粒度を分離する手法

FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

要旨

Support