FlowPrefill: Disaccoppiamento della prelazione dalla granularità di scheduling del prefill per mitigare il blocco testa di linea nel servizio di LLM

Abstract

La crescente domanda di grandi modelli linguistici (LLM) richiede che i sistemi di servizio siano in grado di gestire molte richieste concorrenti con diversi obiettivi di livello di servizio (SLO). Ciò aggrava il blocco della testa di linea (HoL) durante la fase computazionalmente intensiva di prefill, in cui richieste di lunga durata monopolizzano le risorse e ritardano quelle a priorità più alta, portando a diffuse violazioni degli SLO sul tempo per il primo token (TTFT). Sebbene il prefill suddiviso in blocchi (chunked) consenta l'interrompibilità, introduce un compromesso intrinseco tra reattività e throughput: ridurre la dimensione del blocco migliora la latenza di risposta ma degrada l'efficienza computazionale, mentre aumentare la dimensione del blocco massimizza il throughput ma aggrava il blocco. Ciò rende necessario un meccanismo di prelazione adattivo. Tuttavia, bilanciare dinamicamente la granularità di esecuzione con i sovraccarichi di schedulazione rimane una sfida chiave. In questo articolo, proponiamo FlowPrefill, un sistema di servizio ottimizzato per TTFT e goodput che risolve questo conflitto disaccoppiando la granularità della prelazione dalla frequenza di schedulazione. Per ottenere una schedulazione adattiva del prefill, FlowPrefill introduce due innovazioni chiave: 1) Prelazione a Livello di Operatore, che sfrutta i confini degli operatori per consentire un'interruzione dell'esecuzione a grana fine senza la perdita di efficienza associata alla suddivisione in blocchi di dimensione fissa e piccola; e 2) Schedulazione Guidata da Eventi, che attiva le decisioni di schedulazione solo in corrispondenza di eventi di arrivo o completamento di una richiesta, supportando così un'efficiente reattività alla prelazione minimizzando al contempo il sovraccarico del piano di controllo. La valutazione su tracce reali di produzione mostra che FlowPrefill migliora il goodput massimo fino a 5,6 volte rispetto ai sistemi all'avanguardia, soddisfacendo al contempo SLO eterogenei.

English

The growing demand for large language models (LLMs) requires serving systems to handle many concurrent requests with diverse service level objectives (SLOs). This exacerbates head-of-line (HoL) blocking during the compute-intensive prefill phase, where long-running requests monopolize resources and delay higher-priority ones, leading to widespread time-to-first-token (TTFT) SLO violations. While chunked prefill enables interruptibility, it introduces an inherent trade-off between responsiveness and throughput: reducing chunk size improves response latency but degrades computational efficiency, whereas increasing chunk size maximizes throughput but exacerbates blocking. This necessitates an adaptive preemption mechanism. However, dynamically balancing execution granularity against scheduling overheads remains a key challenge. In this paper, we propose FlowPrefill, a TTFT-goodput-optimized serving system that resolves this conflict by decoupling preemption granularity from scheduling frequency. To achieve adaptive prefill scheduling, FlowPrefill introduces two key innovations: 1) Operator-Level Preemption, which leverages operator boundaries to enable fine-grained execution interruption without the efficiency loss associated with fixed small chunking; and 2) Event-Driven Scheduling, which triggers scheduling decisions only upon request arrival or completion events, thereby supporting efficient preemption responsiveness while minimizing control-plane overhead. Evaluation on real-world production traces shows that FlowPrefill improves maximum goodput by up to 5.6times compared to state-of-the-art systems while satisfying heterogeneous SLOs.

FlowPrefill: Disaccoppiamento della prelazione dalla granularità di scheduling del prefill per mitigare il blocco testa di linea nel servizio di LLM

FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

Abstract

Support