FlowPrefill : Découplage de la préemption de la granularité de l'ordonnancement du préremplissage pour atténuer le blocage en tête de ligne dans le service des LLM

Résumé

La demande croissante pour les grands modèles de langage (LLM) exige des systèmes de service qu'ils gèrent de nombreuses requêtes concurrentes avec des objectifs de niveau de service (SLO) diversifiés. Cela exacerbe le blocage en tête de ligne (HoL) pendant la phase de pré-remplissage intensive en calcul, où les requêtes de longue durée monopolisent les ressources et retardent celles de priorité plus élevée, entraînant des violations généralisées des SLO sur le temps jusqu'au premier jeton (TTFT). Bien que le pré-remplissage par blocs permette l'interruptibilité, il introduit un compromis inhérent entre la réactivité et le débit : réduire la taille des blocs améliore la latence de réponse mais dégrade l'efficacité computationnelle, tandis qu'augmenter la taille des blocs maximise le débit mais aggrave le blocage. Cela nécessite un mécanisme de préemption adaptatif. Cependant, équilibrer dynamiquement la granularité de l'exécution avec les surcharges d'ordonnancement reste un défi majeur. Dans cet article, nous proposons FlowPrefill, un système de service optimisé pour le TTFT et le bon débit qui résout ce conflit en découplant la granularité de la préemption de la fréquence d'ordonnancement. Pour parvenir à un ordonnancement de pré-remplissage adaptatif, FlowPrefill introduit deux innovations clés : 1) La Préemption au Niveau de l'Opérateur, qui exploite les limites des opérateurs pour permettre une interruption fine de l'exécution sans la perte d'efficacité associée au découpage fixe en petits blocs ; et 2) l'Ordonnancement Piloté par les Événements, qui déclenche les décisions d'ordonnancement uniquement lors des événements d'arrivée ou d'achèvement des requêtes, supportant ainsi une réactivité de préemption efficace tout en minimisant la surcharge du plan de contrôle. L'évaluation sur des traces de production réelles montre que FlowPrefill améliore le bon débit maximal jusqu'à 5,6 fois par rapport aux systèmes de l'état de l'art tout en satisfaisant des SLO hétérogènes.

English

The growing demand for large language models (LLMs) requires serving systems to handle many concurrent requests with diverse service level objectives (SLOs). This exacerbates head-of-line (HoL) blocking during the compute-intensive prefill phase, where long-running requests monopolize resources and delay higher-priority ones, leading to widespread time-to-first-token (TTFT) SLO violations. While chunked prefill enables interruptibility, it introduces an inherent trade-off between responsiveness and throughput: reducing chunk size improves response latency but degrades computational efficiency, whereas increasing chunk size maximizes throughput but exacerbates blocking. This necessitates an adaptive preemption mechanism. However, dynamically balancing execution granularity against scheduling overheads remains a key challenge. In this paper, we propose FlowPrefill, a TTFT-goodput-optimized serving system that resolves this conflict by decoupling preemption granularity from scheduling frequency. To achieve adaptive prefill scheduling, FlowPrefill introduces two key innovations: 1) Operator-Level Preemption, which leverages operator boundaries to enable fine-grained execution interruption without the efficiency loss associated with fixed small chunking; and 2) Event-Driven Scheduling, which triggers scheduling decisions only upon request arrival or completion events, thereby supporting efficient preemption responsiveness while minimizing control-plane overhead. Evaluation on real-world production traces shows that FlowPrefill improves maximum goodput by up to 5.6times compared to state-of-the-art systems while satisfying heterogeneous SLOs.

FlowPrefill : Découplage de la préemption de la granularité de l'ordonnancement du préremplissage pour atténuer le blocage en tête de ligne dans le service des LLM

FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

Résumé

Support