Планирование с учетом длительности для обслуживания ASR при дрейфе рабочей нагрузки

Аннотация

Политики планирования в масштабных конвейерах обслуживания систем автоматического распознавания речи (ASR) играют ключевую роль в определении сквозной задержки (E2E). Тем не менее, широко используемые движки обслуживания полагаются на планирование по принципу «первым пришёл — первым обслужен» (FCFS), которое игнорирует изменчивость длительности запросов и приводит к блокировке головы очереди при дрейфе нагрузки. Мы показываем, что длительность аудио является точным прокси для времени обработки задачи в таких моделях ASR, как Whisper, и используем это наблюдение для внедрения планирования, учитывающего длительность. Мы интегрируем два классических алгоритма — «кратчайшая задача первой» (SJF) и «следующий с наибольшим коэффициентом отклика» (HRRN) — в vLLM и оцениваем их в условиях реалистичных и дрейфующих нагрузок. На наборе данных LibriSpeech test-clean SJF снижает медианную сквозную задержку до 73% при высокой нагрузке по сравнению с базовым вариантом, но увеличивает хвостовую задержку на 90-м процентиле до 97% из-за голодания длинных запросов. HRRN решает эту проблему компромисса: он уменьшает медианную сквозную задержку до 28%, ограничивая ухудшение хвостовой задержки не более чем 24%. Эти преимущества сохраняются при дрейфе нагрузки, без падения пропускной способности и с накладными расходами на планирование менее 0,1 мс на запрос.

English

Scheduling policies in large-scale Automatic Speech Recognition (ASR) serving pipelines play a key role in determining end-to-end (E2E) latency. Yet, widely used serving engines rely on first-come-first-served (FCFS) scheduling, which ignores variability in request duration and leads to head-of-line blocking under workload drift. We show that audio duration is an accurate proxy for job processing time in ASR models such as Whisper, and use this insight to enable duration-aware scheduling. We integrate two classical algorithms, Shortest Job First (SJF) and Highest Response Ratio Next (HRRN), into vLLM and evaluate them under realistic and drifted workloads. On LibriSpeech test-clean, compared to baseline, SJF reduces median E2E latency by up to 73% at high load, but increases 90th-percentile tail latency by up to 97% due to starvation of long requests. HRRN addresses this trade-off: it reduces median E2E latency by up to 28% while bounding tail-latency degradation to at most 24%. These gains persist under workload drift, with no throughput penalty and <0.1\,ms scheduling overhead per request.