FlowPrefill: Entkopplung von Präemption von der Granularität der Prefill-Planung zur Minderung von Head-of-Line-Blocking bei der LLM-Auslieferung

Zusammenfassung

Der steigende Bedarf an großen Sprachmodellen (LLMs) erfordert Serversysteme, die viele gleichzeitige Anfragen mit unterschiedlichen Service Level Objectives (SLOs) bewältigen können. Dies verschärft das Head-of-Line (HoL)-Blockieren während der rechenintensiven Prefill-Phase, in der langlaufende Anfragen Ressourcen monopolisieren und höherpriorisierte verzögern, was zu weitverbreiteten Verstößen gegen die Time-to-First-Token (TTFT)-SLOs führt. Während chunked Prefill Unterbrechbarkeit ermöglicht, führt es zu einem inhärenten Zielkonflikt zwischen Reaktionsfähigkeit und Durchsatz: Eine Verringerung der Chunk-Größe verbessert die Antwortlatenz, verschlechtert jedoch die Recheneffizienz, während eine Vergrößerung der Chunk-Größe den Durchsatz maximiert, aber das Blockieren verstärkt. Dies erfordert einen adaptiven Präemptionsmechanismus. Die dynamische Abwägung zwischen Ausführungsgranularität und Scheduling-Overhead bleibt jedoch eine zentrale Herausforderung. In diesem Artikel stellen wir FlowPrefill vor, ein TTFT-Goodput-optimiertes Serversystem, das diesen Konflikt löst, indem es die Präemptionsgranularität von der Scheduling-Häufigkeit entkoppelt. Um adaptives Prefill-Scheduling zu erreichen, führt FlowPrefill zwei wesentliche Innovationen ein: 1) *Operator-Level Preemption*, das Operator-Grenzen nutzt, um eine feingranulare Ausführungsunterbrechung ohne den mit festen kleinen Chunks verbundenen Effizienzverlust zu ermöglichen; und 2) *Event-Driven Scheduling*, das Scheduling-Entscheidungen nur bei Anfrageankunft oder -abschluss auslöst und so eine effiziente Präemptionsreaktionsfähigkeit bei minimalem Control-Plane-Overhead unterstützt. Auswertungen mit Produktions-Traces zeigen, dass FlowPrefill den maximalen Goodput im Vergleich zu state-of-the-art Systemen um bis zu das 5,6-fache steigert, während heterogene SLOs eingehalten werden.

English

The growing demand for large language models (LLMs) requires serving systems to handle many concurrent requests with diverse service level objectives (SLOs). This exacerbates head-of-line (HoL) blocking during the compute-intensive prefill phase, where long-running requests monopolize resources and delay higher-priority ones, leading to widespread time-to-first-token (TTFT) SLO violations. While chunked prefill enables interruptibility, it introduces an inherent trade-off between responsiveness and throughput: reducing chunk size improves response latency but degrades computational efficiency, whereas increasing chunk size maximizes throughput but exacerbates blocking. This necessitates an adaptive preemption mechanism. However, dynamically balancing execution granularity against scheduling overheads remains a key challenge. In this paper, we propose FlowPrefill, a TTFT-goodput-optimized serving system that resolves this conflict by decoupling preemption granularity from scheduling frequency. To achieve adaptive prefill scheduling, FlowPrefill introduces two key innovations: 1) Operator-Level Preemption, which leverages operator boundaries to enable fine-grained execution interruption without the efficiency loss associated with fixed small chunking; and 2) Event-Driven Scheduling, which triggers scheduling decisions only upon request arrival or completion events, thereby supporting efficient preemption responsiveness while minimizing control-plane overhead. Evaluation on real-world production traces shows that FlowPrefill improves maximum goodput by up to 5.6times compared to state-of-the-art systems while satisfying heterogeneous SLOs.

FlowPrefill: Entkopplung von Präemption von der Granularität der Prefill-Planung zur Minderung von Head-of-Line-Blocking bei der LLM-Auslieferung

FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

Zusammenfassung

Support