FlowPrefill: Desacoplamiento de la Preempción de la Granularidad de la Planificación de Prelleno para Mitigar el Bloqueo de Cabecera de Línea en el Servicio de LLM

Resumen

La creciente demanda de modelos de lenguaje grandes (LLM) requiere que los sistemas de servicio manejen muchas solicitudes concurrentes con diversos objetivos de nivel de servicio (SLO). Esto exacerba el bloqueo de cabecera de línea (HoL) durante la fase computacionalmente intensiva de prefilling, donde las solicitudes de larga duración monopolizan los recursos y retrasan las de mayor prioridad, lo que genera violaciones generalizadas de los SLO de tiempo hasta el primer token (TTFT). Si bien el prefilling fragmentado permite la interrupción, introduce una disyuntiva inherente entre capacidad de respuesta y rendimiento: reducir el tamaño del fragmento mejora la latencia de respuesta pero degrada la eficiencia computacional, mientras que aumentarlo maximiza el rendimiento pero exacerba el bloqueo. Esto hace necesario un mecanismo de prelación adaptativo. Sin embargo, equilibrar dinámicamente la granularidad de la ejecución con la sobrecarga de planificación sigue siendo un desafío clave. En este artículo, proponemos FlowPrefill, un sistema de servicio optimizado para TTFT y buen rendimiento (goodput) que resuelve este conflicto desacoplando la granularidad de la prelación de la frecuencia de planificación. Para lograr una planificación de prefilling adaptativa, FlowPrefill introduce dos innovaciones clave: 1) Prelación a Nivel de Operador, que aprovecha los límites de los operadores para permitir una interrupción de ejecución de grano fino sin la pérdida de eficiencia asociada a la fragmentación fija en tamaños pequeños; y 2) Planificación Dirigida por Eventos, que activa las decisiones de planificación solo ante eventos de llegada o finalización de solicitudes, apoyando así una prelación eficiente y receptiva mientras minimiza la sobrecarga del plano de control. La evaluación con trazas de producción del mundo real muestra que FlowPrefill mejora el buen rendimiento máximo hasta en 5.6 veces en comparación con los sistemas más avanzados, satisfaciendo al mismo tiempo SLO heterogéneos.

English

The growing demand for large language models (LLMs) requires serving systems to handle many concurrent requests with diverse service level objectives (SLOs). This exacerbates head-of-line (HoL) blocking during the compute-intensive prefill phase, where long-running requests monopolize resources and delay higher-priority ones, leading to widespread time-to-first-token (TTFT) SLO violations. While chunked prefill enables interruptibility, it introduces an inherent trade-off between responsiveness and throughput: reducing chunk size improves response latency but degrades computational efficiency, whereas increasing chunk size maximizes throughput but exacerbates blocking. This necessitates an adaptive preemption mechanism. However, dynamically balancing execution granularity against scheduling overheads remains a key challenge. In this paper, we propose FlowPrefill, a TTFT-goodput-optimized serving system that resolves this conflict by decoupling preemption granularity from scheduling frequency. To achieve adaptive prefill scheduling, FlowPrefill introduces two key innovations: 1) Operator-Level Preemption, which leverages operator boundaries to enable fine-grained execution interruption without the efficiency loss associated with fixed small chunking; and 2) Event-Driven Scheduling, which triggers scheduling decisions only upon request arrival or completion events, thereby supporting efficient preemption responsiveness while minimizing control-plane overhead. Evaluation on real-world production traces shows that FlowPrefill improves maximum goodput by up to 5.6times compared to state-of-the-art systems while satisfying heterogeneous SLOs.

FlowPrefill: Desacoplamiento de la Preempción de la Granularidad de la Planificación de Prelleno para Mitigar el Bloqueo de Cabecera de Línea en el Servicio de LLM

FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

Resumen

Support