VoxServe: Sistema de Servicio Centrado en Transmisión en Continuo para Modelos de Lenguaje de Voz

Resumen

La implementación de modelos modernos de lenguaje de voz (SpeechLMs) en entornos de transmisión continua requiere sistemas que ofrezcan baja latencia, alto rendimiento y sólidas garantías de capacidad de transmisión. Los sistemas existentes no logran soportar diversos modelos de manera flexible y eficiente. Presentamos VoxServe, un sistema unificado de servicio para SpeechLMs que optimiza el rendimiento en streaming. VoxServe introduce una abstracción de ejecución de modelos que desacopla la arquitectura del modelo de las optimizaciones a nivel del sistema, permitiendo así el soporte para diversas arquitecturas de SpeechLM dentro de un único marco de trabajo. Basándose en esta abstracción, VoxServe implementa una planificación consciente del streaming y una canalización de inferencia asíncrona para mejorar la eficiencia de extremo a extremo. Las evaluaciones en múltiples SpeechLMs modernos muestran que VoxServe logra un rendimiento 10-20 veces mayor que las implementaciones existentes con latencia comparable, manteniendo una alta viabilidad de transmisión continua. El código de VoxServe está disponible en https://github.com/vox-serve/vox-serve.

English

Deploying modern Speech Language Models (SpeechLMs) in streaming settings requires systems that provide low latency, high throughput, and strong guarantees of streamability. Existing systems fall short of supporting diverse models flexibly and efficiently. We present VoxServe, a unified serving system for SpeechLMs that optimizes streaming performance. VoxServe introduces a model-execution abstraction that decouples model architecture from system-level optimizations, thereby enabling support for diverse SpeechLM architectures within a single framework. Building on this abstraction, VoxServe implements streaming-aware scheduling and an asynchronous inference pipeline to improve end-to-end efficiency. Evaluations across multiple modern SpeechLMs show that VoxServe achieves 10-20x higher throughput than existing implementations at comparable latency while maintaining high streaming viability. The code of VoxServe is available at https://github.com/vox-serve/vox-serve.