ChatPaper.aiChatPaper

FlowPrefill: Ontkoppeling van Preemptie van Prefill-planninggranulariteit om Head-of-Line Blocking in LLM-diensten te Verminderen

FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

February 18, 2026
Auteurs: Chia-chi Hsieh, Zan Zong, Xinyang Chen, Jianjiang Li, Jidong Zhai, Lijie Wen
cs.AI

Samenvatting

De groeiende vraag naar grote taalmodellen (LLM's) vereist dat serversystemen veel gelijktijdige verzoeken met uiteenlopende service level objectives (SLO's) kunnen verwerken. Dit verergert head-of-line (HoL)-blokkering tijdens de rekenintensieve prefill-fase, waarbij langlopende verzoeken middelen monopoliseren en verzoeken met een hogere prioriteit vertragen, wat leidt tot wijdverbreide schendingen van de time-to-first-token (TTFT)-SLO. Hoewel chunked prefill onderbreekbaarheid mogelijk maakt, introduceert het een inherente afweging tussen responsiviteit en doorvoer: het verkleinen van de chunkgrootte verbetert de responstijd maar verslechtert de rekenkundige efficiëntie, terwijl het vergroten van de chunkgrootte de doorvoer maximaliseert maar blokkering verergert. Dit vereist een adaptief preemptiemechanisme. Het dynamisch afwegen van uitvoeringsgranulariteit tegen planningsoverhead blijft echter een grote uitdaging. In dit artikel stellen we FlowPrefill voor, een TTFT-goodput-geoptimaliseerd serversysteem dat dit conflict oplost door preemptiegranulariteit te ontkoppelen van planningsfrequentie. Om adaptieve prefill-planning te bereiken, introduceert FlowPrefill twee belangrijke innovaties: 1) Operator-Level Preemptie, dat operatorgrenzen benut om fijnmazige uitvoeringsonderbreking mogelijk te maken zonder het efficiëntieverlies van vaste kleine chunking; en 2) Event-Driven Planning, dat planningsbeslissingen alleen activeert bij aankomst- of voltooiingsgebeurtenissen van verzoeken, waardoor efficiënte preemptieresponsiviteit wordt ondersteund terwijl de control-plane-overhead wordt geminimaliseerd. Evaluatie op real-world productietraces toont aan dat FlowPrefill de maximale goodput met tot 5,6 keer verbetert in vergelijking met state-of-the-art systemen, terwijl heterogene SLO's worden nageleefd.
English
The growing demand for large language models (LLMs) requires serving systems to handle many concurrent requests with diverse service level objectives (SLOs). This exacerbates head-of-line (HoL) blocking during the compute-intensive prefill phase, where long-running requests monopolize resources and delay higher-priority ones, leading to widespread time-to-first-token (TTFT) SLO violations. While chunked prefill enables interruptibility, it introduces an inherent trade-off between responsiveness and throughput: reducing chunk size improves response latency but degrades computational efficiency, whereas increasing chunk size maximizes throughput but exacerbates blocking. This necessitates an adaptive preemption mechanism. However, dynamically balancing execution granularity against scheduling overheads remains a key challenge. In this paper, we propose FlowPrefill, a TTFT-goodput-optimized serving system that resolves this conflict by decoupling preemption granularity from scheduling frequency. To achieve adaptive prefill scheduling, FlowPrefill introduces two key innovations: 1) Operator-Level Preemption, which leverages operator boundaries to enable fine-grained execution interruption without the efficiency loss associated with fixed small chunking; and 2) Event-Driven Scheduling, which triggers scheduling decisions only upon request arrival or completion events, thereby supporting efficient preemption responsiveness while minimizing control-plane overhead. Evaluation on real-world production traces shows that FlowPrefill improves maximum goodput by up to 5.6times compared to state-of-the-art systems while satisfying heterogeneous SLOs.
PDF12March 28, 2026