ChatPaper.aiChatPaper

VoxServe: Een Streaming-Gericht Serveersysteem voor Spraaktaalmodellen

VoxServe: Streaming-Centric Serving System for Speech Language Models

January 30, 2026
Auteurs: Keisuke Kamahori, Wei-Tzu Lee, Atindra Jha, Rohan Kadekodi, Stephanie Wang, Arvind Krishnamurthy, Baris Kasikci
cs.AI

Samenvatting

Het inzetten van moderne spraaktaalmodellen (SpeechLMs) in streamingomgevingen vereist systemen die lage latentie, hoge doorvoer en sterke garanties voor stroombaarheid bieden. Bestaande systemen schieten tekort in het flexibel en efficiënt ondersteunen van diverse modellen. Wij presenteren VoxServe, een uniform serversysteem voor SpeechLMs dat de streamingprestaties optimaliseert. VoxServe introduceert een modeluitvoeringsabstractie die de modelarchitectuur ontkoppelt van systeemoptimalisaties, waardoor ondersteuning voor diverse SpeechLM-architecturen binnen een enkel raamwerk mogelijk wordt. Voortbouwend op deze abstractie implementeert VoxServe een streamingbewuste planning en een asynchrone inferentiepijplijn om de end-to-end efficiëntie te verbeteren. Evaluaties met meerdere moderne SpeechLMs tonen aan dat VoxServe een 10-20x hogere doorvoer bereikt dan bestaande implementaties bij vergelijkbare latentie, terwijl een hoge stroombaarheid behouden blijft. De code van VoxServe is beschikbaar op https://github.com/vox-serve/vox-serve.
English
Deploying modern Speech Language Models (SpeechLMs) in streaming settings requires systems that provide low latency, high throughput, and strong guarantees of streamability. Existing systems fall short of supporting diverse models flexibly and efficiently. We present VoxServe, a unified serving system for SpeechLMs that optimizes streaming performance. VoxServe introduces a model-execution abstraction that decouples model architecture from system-level optimizations, thereby enabling support for diverse SpeechLM architectures within a single framework. Building on this abstraction, VoxServe implements streaming-aware scheduling and an asynchronous inference pipeline to improve end-to-end efficiency. Evaluations across multiple modern SpeechLMs show that VoxServe achieves 10-20x higher throughput than existing implementations at comparable latency while maintaining high streaming viability. The code of VoxServe is available at https://github.com/vox-serve/vox-serve.
PDF62March 12, 2026