VoxServe : Système de service centré sur le streaming pour les modèles de langage de parole
VoxServe: Streaming-Centric Serving System for Speech Language Models
January 30, 2026
Auteurs: Keisuke Kamahori, Wei-Tzu Lee, Atindra Jha, Rohan Kadekodi, Stephanie Wang, Arvind Krishnamurthy, Baris Kasikci
cs.AI
Résumé
Le déploiement de modèles de langage de parole modernes (SpeechLMs) dans des contextes de streaming nécessite des systèmes offrant une faible latence, un débit élevé et de solides garanties de fluidité. Les systèmes existants ne parviennent pas à prendre en charge de manière flexible et efficace une diversité de modèles. Nous présentons VoxServe, un système de service unifié pour les SpeechLMs qui optimise les performances en streaming. VoxServe introduit une abstraction de l'exécution des modèles qui découple l'architecture du modèle des optimisations au niveau du système, permettant ainsi la prise en charge de diverses architectures SpeechLM dans un cadre unique. S'appuyant sur cette abstraction, VoxServe met en œuvre un ordonnancement adapté au streaming et un pipeline d'inférence asynchrone pour améliorer l'efficacité de bout en bout. Les évaluations sur plusieurs SpeechLMs modernes montrent que VoxServe atteint un débit 10 à 20 fois supérieur à celui des implémentations existantes pour une latence comparable, tout en maintenant une grande viabilité du streaming. Le code de VoxServe est disponible à l'adresse https://github.com/vox-serve/vox-serve.
English
Deploying modern Speech Language Models (SpeechLMs) in streaming settings requires systems that provide low latency, high throughput, and strong guarantees of streamability. Existing systems fall short of supporting diverse models flexibly and efficiently. We present VoxServe, a unified serving system for SpeechLMs that optimizes streaming performance. VoxServe introduces a model-execution abstraction that decouples model architecture from system-level optimizations, thereby enabling support for diverse SpeechLM architectures within a single framework. Building on this abstraction, VoxServe implements streaming-aware scheduling and an asynchronous inference pipeline to improve end-to-end efficiency. Evaluations across multiple modern SpeechLMs show that VoxServe achieves 10-20x higher throughput than existing implementations at comparable latency while maintaining high streaming viability. The code of VoxServe is available at https://github.com/vox-serve/vox-serve.