VoxServe: Streaming-zentriertes Bereitstellungssystem für Sprachmodelle
VoxServe: Streaming-Centric Serving System for Speech Language Models
January 30, 2026
Autoren: Keisuke Kamahori, Wei-Tzu Lee, Atindra Jha, Rohan Kadekodi, Stephanie Wang, Arvind Krishnamurthy, Baris Kasikci
cs.AI
Zusammenfassung
Der Einsatz moderner Sprachsprachmodelle (SpeechLMs) in Streaming-Umgebungen erfordert Systeme, die niedrige Latenz, hohen Durchsatz und starke Garantien für die Streamfähigkeit bieten. Bisherige Systeme unterstützen verschiedene Modelle nicht flexibel und effizient genug. Wir stellen VoxServe vor, ein einheitliches Bereitstellungssystem für SpeechLMs, das die Streaming-Leistung optimiert. VoxServe führt eine Modellausführungsabstraktion ein, die die Modellarchitektur von systemweiten Optimierungen entkoppelt und so die Unterstützung verschiedener SpeechLM-Architekturen innerhalb eines einzigen Frameworks ermöglicht. Aufbauend auf dieser Abstraktion implementiert VoxServe eine streaming-bewusste Planung und eine asynchrone Inferenz-Pipeline, um die Ende-zu-Ende-Effizienz zu verbessern. Evaluierungen mit mehreren modernen SpeechLMs zeigen, dass VoxServe im Vergleich zu bestehenden Implementierungen bei vergleichbarer Latenz einen 10-20 mal höheren Durchsatz erreicht und gleichzeitig eine hohe Streaming-Tauglichkeit gewährleistet. Der Code von VoxServe ist unter https://github.com/vox-serve/vox-serve verfügbar.
English
Deploying modern Speech Language Models (SpeechLMs) in streaming settings requires systems that provide low latency, high throughput, and strong guarantees of streamability. Existing systems fall short of supporting diverse models flexibly and efficiently. We present VoxServe, a unified serving system for SpeechLMs that optimizes streaming performance. VoxServe introduces a model-execution abstraction that decouples model architecture from system-level optimizations, thereby enabling support for diverse SpeechLM architectures within a single framework. Building on this abstraction, VoxServe implements streaming-aware scheduling and an asynchronous inference pipeline to improve end-to-end efficiency. Evaluations across multiple modern SpeechLMs show that VoxServe achieves 10-20x higher throughput than existing implementations at comparable latency while maintaining high streaming viability. The code of VoxServe is available at https://github.com/vox-serve/vox-serve.