FlowPrefill: Разделение вытеснения и гранулярности планирования предварительного заполнения для устранения блокировки в начале очереди при обслуживании больших языковых моделей

Аннотация

Растущий спрос на большие языковые модели (LLMs) требует от систем обслуживания способности обрабатывать множество конкурентных запросов с разнородными целевыми показателями уровня обслуживания (SLO). Это усугубляет проблему блокировки во главе очереди (HoL) в ходе ресурсоемкой фазы предварительного заполнения (prefill), когда длительные запросы монополизируют ресурсы и задерживают выполнение запросов с более высоким приоритетом, что приводит к массовым нарушениям SLO по времени до первого токена (TTFT). Хотя разбиение предварительного заполнения на чанки (chunked prefill) обеспечивает возможность прерывания, оно создает inherentный компромисс между отзывчивостью и пропускной способностью: уменьшение размера чанка улучшает задержку отклика, но снижает вычислительную эффективность, тогда как увеличение размера чанка максимизирует пропускную способность, но усугубляет блокировку. Это требует наличия адаптивного механизма вытеснения. Однако динамическое балансирование гранулярности выполнения и накладных расходов на планирование остается ключевой проблемой. В данной статье мы предлагаем FlowPrefill, систему обслуживания, оптимизированную по TTFT и полезной пропускной способности (goodput), которая разрешает этот конфликт за счет разделения гранулярности вытеснения и частоты планирования. Для достижения адаптивного планирования предварительного заполнения FlowPrefill вводит две ключевые инновации: 1) Вытеснение на уровне операторов (Operator-Level Preemption), которое использует границы операторов для обеспечения прерывания выполнения с мелкой гранулярностью без потерь эффективности, связанных с фиксированным мелким чанкованием; и 2) Событийное планирование (Event-Driven Scheduling), которое инициирует решения по планированию только при событиях поступления или завершения запроса, тем самым обеспечивая эффективную отзывчивость вытеснения при минимизации накладных расходов на управление. Оценка на реальных производственных трассировках показывает, что FlowPrefill повышает максимальную полезную пропускную способность до 5,6 раз по сравнению с современными системами, одновременно удовлетворяя гетерогенным SLO.

English

The growing demand for large language models (LLMs) requires serving systems to handle many concurrent requests with diverse service level objectives (SLOs). This exacerbates head-of-line (HoL) blocking during the compute-intensive prefill phase, where long-running requests monopolize resources and delay higher-priority ones, leading to widespread time-to-first-token (TTFT) SLO violations. While chunked prefill enables interruptibility, it introduces an inherent trade-off between responsiveness and throughput: reducing chunk size improves response latency but degrades computational efficiency, whereas increasing chunk size maximizes throughput but exacerbates blocking. This necessitates an adaptive preemption mechanism. However, dynamically balancing execution granularity against scheduling overheads remains a key challenge. In this paper, we propose FlowPrefill, a TTFT-goodput-optimized serving system that resolves this conflict by decoupling preemption granularity from scheduling frequency. To achieve adaptive prefill scheduling, FlowPrefill introduces two key innovations: 1) Operator-Level Preemption, which leverages operator boundaries to enable fine-grained execution interruption without the efficiency loss associated with fixed small chunking; and 2) Event-Driven Scheduling, which triggers scheduling decisions only upon request arrival or completion events, thereby supporting efficient preemption responsiveness while minimizing control-plane overhead. Evaluation on real-world production traces shows that FlowPrefill improves maximum goodput by up to 5.6times compared to state-of-the-art systems while satisfying heterogeneous SLOs.

FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

Аннотация

Support