Ordonnancement sensible à la durée pour le service ASR sous dérive de charge de travail

Résumé

Les politiques d'ordonnancement dans les pipelines de service de reconnaissance automatique de la parole (ASR) à grande échelle jouent un rôle clé dans la détermination de la latence de bout en bout (E2E). Pourtant, les moteurs de service largement utilisés reposent sur un ordonnancement premier arrivé, premier servi (FCFS), qui ignore la variabilité de la durée des requêtes et entraîne un blocage de tête de file en cas de dérive de la charge de travail. Nous montrons que la durée audio constitue un indicateur précis du temps de traitement des tâches dans les modèles ASR tels que Whisper, et exploitons cette observation pour permettre un ordonnancement tenant compte de la durée. Nous intégrons deux algorithmes classiques, Shortest Job First (SJF) et Highest Response Ratio Next (HRRN), dans vLLM et les évaluons sous des charges de travail réalistes et sujettes à dérive. Sur LibriSpeech test-clean, par rapport à la référence, SJF réduit la latence E2E médiane jusqu'à 73 % en forte charge, mais augmente la latence de queue au 90e percentile jusqu'à 97 % en raison de la famine des requêtes longues. HRRN permet de gérer ce compromis : il réduit la latence E2E médiane jusqu'à 28 % tout en limitant la dégradation de la latence de queue à 24 % au maximum. Ces gains persistent en présence de dérive de la charge de travail, sans pénalité de débit et avec un surcoût d'ordonnancement inférieur à 0,1 ms par requête.

English

Scheduling policies in large-scale Automatic Speech Recognition (ASR) serving pipelines play a key role in determining end-to-end (E2E) latency. Yet, widely used serving engines rely on first-come-first-served (FCFS) scheduling, which ignores variability in request duration and leads to head-of-line blocking under workload drift. We show that audio duration is an accurate proxy for job processing time in ASR models such as Whisper, and use this insight to enable duration-aware scheduling. We integrate two classical algorithms, Shortest Job First (SJF) and Highest Response Ratio Next (HRRN), into vLLM and evaluate them under realistic and drifted workloads. On LibriSpeech test-clean, compared to baseline, SJF reduces median E2E latency by up to 73% at high load, but increases 90th-percentile tail latency by up to 97% due to starvation of long requests. HRRN addresses this trade-off: it reduces median E2E latency by up to 28% while bounding tail-latency degradation to at most 24%. These gains persist under workload drift, with no throughput penalty and <0.1\,ms scheduling overhead per request.