VoxServe: Sistema di Servizio a Orientamento Streaming per Modelli Linguistici Vocali
VoxServe: Streaming-Centric Serving System for Speech Language Models
January 30, 2026
Autori: Keisuke Kamahori, Wei-Tzu Lee, Atindra Jha, Rohan Kadekodi, Stephanie Wang, Arvind Krishnamurthy, Baris Kasikci
cs.AI
Abstract
L'implementazione di moderni modelli linguistici vocali (SpeechLMs) in contesti di streaming richiede sistemi che garantiscano bassa latenza, alto throughput e solide garanzie di streamabilità. I sistemi esistenti non supportano in modo flessibile ed efficiente modelli diversificati. Presentiamo VoxServe, un sistema unificato di servizio per SpeechLMs che ottimizza le prestazioni dello streaming. VoxServe introduce un'astrazione dell'esecuzione del modello che disaccoppia l'architettura del modello dalle ottimizzazioni a livello di sistema, consentendo così il supporto di diverse architetture SpeechLM all'interno di un unico framework. Basandosi su questa astrazione, VoxServe implementa uno scheduling consapevole dello streaming e una pipeline di inferenza asincrona per migliorare l'efficienza end-to-end. Le valutazioni condotte su diversi SpeechLM moderni mostrano che VoxServe raggiunge un throughput da 10 a 20 volte superiore rispetto alle implementazioni esistenti a parità di latenza, mantenendo al contempo un'elevata affidabilità dello streaming. Il codice di VoxServe è disponibile all'indirizzo https://github.com/vox-serve/vox-serve.
English
Deploying modern Speech Language Models (SpeechLMs) in streaming settings requires systems that provide low latency, high throughput, and strong guarantees of streamability. Existing systems fall short of supporting diverse models flexibly and efficiently. We present VoxServe, a unified serving system for SpeechLMs that optimizes streaming performance. VoxServe introduces a model-execution abstraction that decouples model architecture from system-level optimizations, thereby enabling support for diverse SpeechLM architectures within a single framework. Building on this abstraction, VoxServe implements streaming-aware scheduling and an asynchronous inference pipeline to improve end-to-end efficiency. Evaluations across multiple modern SpeechLMs show that VoxServe achieves 10-20x higher throughput than existing implementations at comparable latency while maintaining high streaming viability. The code of VoxServe is available at https://github.com/vox-serve/vox-serve.