Dauerbewusstes Scheduling für die ASR-Bereitstellung unter Arbeitslastdrift

Zusammenfassung

Scheduling-Strategien in großen Serving-Pipelines für die Automatische Spracherkennung (ASR) spielen eine Schlüsselrolle bei der Bestimmung der Ende-zu-Ende-Latenz (E2E). Dennoch verlassen sich weit verbreitete Serving-Engines auf das First-Come-First-Served (FCFS)-Scheduling, das die Variabilität der Anfragedauer ignoriert und bei Arbeitslastverschiebungen zu Head-of-Line-Blocking führt. Wir zeigen, dass die Audiodauer ein genauer Proxy für die Job-Verarbeitungszeit in ASR-Modellen wie Whisper ist, und nutzen diese Erkenntnis, um dauerbewusstes Scheduling zu ermöglichen. Wir integrieren zwei klassische Algorithmen, Shortest Job First (SJF) und Highest Response Ratio Next (HRRN), in vLLM und evaluieren sie unter realistischen und driftenden Arbeitslasten. Auf LibriSpeech test-clean reduziert SJF im Vergleich zur Basislinie die mediane E2E-Latenz bei hoher Last um bis zu 73%, erhöht jedoch die Tail-Latenz des 90. Perzentils aufgrund des Verhungerns langer Anfragen um bis zu 97%. HRRN adressiert diesen Trade-off: Es reduziert die mediane E2E-Latenz um bis zu 28%, während es die Verschlechterung der Tail-Latenz auf höchstens 24% begrenzt. Diese Gewinne bleiben unter Arbeitslastverschiebung bestehen, ohne Durchsatzeinbußen und mit einem Scheduling-Overhead von <0,1 ms pro Anfrage.

English

Scheduling policies in large-scale Automatic Speech Recognition (ASR) serving pipelines play a key role in determining end-to-end (E2E) latency. Yet, widely used serving engines rely on first-come-first-served (FCFS) scheduling, which ignores variability in request duration and leads to head-of-line blocking under workload drift. We show that audio duration is an accurate proxy for job processing time in ASR models such as Whisper, and use this insight to enable duration-aware scheduling. We integrate two classical algorithms, Shortest Job First (SJF) and Highest Response Ratio Next (HRRN), into vLLM and evaluate them under realistic and drifted workloads. On LibriSpeech test-clean, compared to baseline, SJF reduces median E2E latency by up to 73% at high load, but increases 90th-percentile tail latency by up to 97% due to starvation of long requests. HRRN addresses this trade-off: it reduces median E2E latency by up to 28% while bounding tail-latency degradation to at most 24%. These gains persist under workload drift, with no throughput penalty and <0.1\,ms scheduling overhead per request.