Planificación consciente de la duración para el servicio de ASR bajo deriva de carga de trabajo

Resumen

Las políticas de planificación en pipelines de servicio a gran escala de Reconocimiento Automático del Habla (ASR) juegan un papel clave en la determinación de la latencia de extremo a extremo (E2E). Sin embargo, los motores de servicio ampliamente utilizados dependen de una planificación de primero en llegar, primero en ser atendido (FCFS), que ignora la variabilidad en la duración de las solicitudes y conduce al bloqueo de cabeza de línea bajo deriva de la carga de trabajo. Demostramos que la duración del audio es un indicador preciso del tiempo de procesamiento de tareas en modelos ASR como Whisper, y utilizamos esta observación para habilitar una planificación consciente de la duración. Integramos dos algoritmos clásicos, Primero el Trabajo Más Corto (SJF) y Siguiente el de Mayor Razón de Respuesta (HRRN), en vLLM y los evaluamos bajo cargas de trabajo realistas y con deriva. En LibriSpeech test-clean, en comparación con la línea base, SJF reduce la latencia mediana E2E hasta en un 73% bajo alta carga, pero aumenta la latencia de cola del percentil 90 hasta en un 97% debido a la inanición de solicitudes largas. HRRN aborda esta compensación: reduce la latencia mediana E2E hasta en un 28% mientras acota la degradación de la latencia de cola a como máximo un 24%. Estas ganancias persisten bajo deriva de la carga de trabajo, sin penalización de rendimiento y con una sobrecarga de planificación de menos de 0,1 ms por solicitud.

English

Scheduling policies in large-scale Automatic Speech Recognition (ASR) serving pipelines play a key role in determining end-to-end (E2E) latency. Yet, widely used serving engines rely on first-come-first-served (FCFS) scheduling, which ignores variability in request duration and leads to head-of-line blocking under workload drift. We show that audio duration is an accurate proxy for job processing time in ASR models such as Whisper, and use this insight to enable duration-aware scheduling. We integrate two classical algorithms, Shortest Job First (SJF) and Highest Response Ratio Next (HRRN), into vLLM and evaluate them under realistic and drifted workloads. On LibriSpeech test-clean, compared to baseline, SJF reduces median E2E latency by up to 73% at high load, but increases 90th-percentile tail latency by up to 97% due to starvation of long requests. HRRN addresses this trade-off: it reduces median E2E latency by up to 28% while bounding tail-latency degradation to at most 24%. These gains persist under workload drift, with no throughput penalty and <0.1\,ms scheduling overhead per request.