Escalonamento Ciente da Duração para Serviço de ASR sob Deriva de Carga de Trabalho

Resumo

Políticas de escalonamento em pipelines de serviço de Reconhecimento Automático de Fala (ASR) em larga escala desempenham um papel fundamental na determinação da latência ponta a ponta (E2E). No entanto, motores de serviço amplamente utilizados dependem do escalonamento primeiro a chegar, primeiro a ser atendido (FCFS), que ignora a variabilidade na duração das requisições e leva ao bloqueio de cabeça de fila sob mudanças na carga de trabalho. Mostramos que a duração do áudio é uma proxy precisa para o tempo de processamento de jobs em modelos ASR como o Whisper, e utilizamos esse insight para permitir escalonamento ciente da duração. Integramos dois algoritmos clássicos, Shortest Job First (SJF) e Highest Response Ratio Next (HRRN), no vLLM e os avaliamos sob cargas de trabalho realistas e sujeitas a mudanças. No LibriSpeech test-clean, em comparação com a linha de base, o SJF reduz a latência E2E mediana em até 73% sob alta carga, mas aumenta a latência de cauda no percentil 90 em até 97% devido à inanição de requisições longas. O HRRN trata desse compromisso: reduz a latência E2E mediana em até 28%, enquanto limita a degradação da latência de cauda a no máximo 24%. Esses ganhos persistem sob mudanças na carga de trabalho, sem penalidade na vazão e com sobrecarga de escalonamento inferior a 0,1 ms por requisição.

English

Scheduling policies in large-scale Automatic Speech Recognition (ASR) serving pipelines play a key role in determining end-to-end (E2E) latency. Yet, widely used serving engines rely on first-come-first-served (FCFS) scheduling, which ignores variability in request duration and leads to head-of-line blocking under workload drift. We show that audio duration is an accurate proxy for job processing time in ASR models such as Whisper, and use this insight to enable duration-aware scheduling. We integrate two classical algorithms, Shortest Job First (SJF) and Highest Response Ratio Next (HRRN), into vLLM and evaluate them under realistic and drifted workloads. On LibriSpeech test-clean, compared to baseline, SJF reduces median E2E latency by up to 73% at high load, but increases 90th-percentile tail latency by up to 97% due to starvation of long requests. HRRN addresses this trade-off: it reduces median E2E latency by up to 28% while bounding tail-latency degradation to at most 24%. These gains persist under workload drift, with no throughput penalty and <0.1\,ms scheduling overhead per request.