Duurbewuste planning voor ASR-dienstverlening onder werklastverschuiving

Samenvatting

Planningsbeleid in grootschalige Automatic Speech Recognition (ASR)-servingpijplijnen speelt een sleutelrol bij het bepalen van de end-to-end (E2E)-latentie. Toch vertrouwen veelgebruikte servingengines op first-come-first-served (FCFS)-planning, die variabiliteit in aanvraagduur negeert en leidt tot head-of-line-blokkering bij werklastverschuiving. We tonen aan dat audioduur een nauwkeurige proxy is voor de verwerkingstijd van taken in ASR-modellen zoals Whisper, en gebruiken dit inzicht om duurbewuste planning mogelijk te maken. We integreren twee klassieke algoritmen, Shortest Job First (SJF) en Highest Response Ratio Next (HRRN), in vLLM en evalueren ze onder realistische en verschoven werklasten. Op LibriSpeech test-clean vermindert SJF vergeleken met de basislijn de mediane E2E-latentie met tot 73% bij hoge belasting, maar verhoogt de 90e percentiel staartlatentie met tot 97% als gevolg van uithongering van lange aanvragen. HRRN pakt deze afweging aan: het vermindert de mediane E2E-latentie met tot 28% terwijl de verslechtering van de staartlatentie wordt beperkt tot maximaal 24%. Deze winsten blijven bestaan onder werklastverschuiving, zonder doorvoerstraf en met minder dan 0,1 ms planningsoverhead per aanvraag.

English

Scheduling policies in large-scale Automatic Speech Recognition (ASR) serving pipelines play a key role in determining end-to-end (E2E) latency. Yet, widely used serving engines rely on first-come-first-served (FCFS) scheduling, which ignores variability in request duration and leads to head-of-line blocking under workload drift. We show that audio duration is an accurate proxy for job processing time in ASR models such as Whisper, and use this insight to enable duration-aware scheduling. We integrate two classical algorithms, Shortest Job First (SJF) and Highest Response Ratio Next (HRRN), into vLLM and evaluate them under realistic and drifted workloads. On LibriSpeech test-clean, compared to baseline, SJF reduces median E2E latency by up to 73% at high load, but increases 90th-percentile tail latency by up to 97% due to starvation of long requests. HRRN addresses this trade-off: it reduces median E2E latency by up to 28% while bounding tail-latency degradation to at most 24%. These gains persist under workload drift, with no throughput penalty and <0.1\,ms scheduling overhead per request.