ChatPaper.aiChatPaper

VoxServe: Sistema de Serviço Centrado em Streaming para Modelos de Linguagem de Fala

VoxServe: Streaming-Centric Serving System for Speech Language Models

January 30, 2026
Autores: Keisuke Kamahori, Wei-Tzu Lee, Atindra Jha, Rohan Kadekodi, Stephanie Wang, Arvind Krishnamurthy, Baris Kasikci
cs.AI

Resumo

A implantação de modelos modernos de linguagem de fala (SpeechLMs) em ambientes de *streaming* exige sistemas que ofereçam baixa latência, alta taxa de transferência e fortes garantias de capacidade de transmissão em fluxo contínuo. Os sistemas existentes não conseguem suportar modelos diversos de forma flexível e eficiente. Apresentamos o VoxServe, um sistema unificado de serviço para SpeechLMs que otimiza o desempenho em *streaming*. O VoxServe introduz uma abstração de execução de modelos que desacopla a arquitetura do modelo das otimizações em nível de sistema, permitindo assim o suporte a diversas arquiteturas de SpeechLM dentro de uma única estrutura. Com base nesta abstração, o VoxServe implementa um agendamento consciente do *streaming* e um pipeline de inferência assíncrona para melhorar a eficiência de ponta a ponta. Avaliações em vários SpeechLMs modernos mostram que o VoxServe alcança uma taxa de transferência 10 a 20 vezes maior do que as implementações existentes, com latência comparável, mantendo alta viabilidade de transmissão em fluxo. O código do VoxServe está disponível em https://github.com/vox-serve/vox-serve.
English
Deploying modern Speech Language Models (SpeechLMs) in streaming settings requires systems that provide low latency, high throughput, and strong guarantees of streamability. Existing systems fall short of supporting diverse models flexibly and efficiently. We present VoxServe, a unified serving system for SpeechLMs that optimizes streaming performance. VoxServe introduces a model-execution abstraction that decouples model architecture from system-level optimizations, thereby enabling support for diverse SpeechLM architectures within a single framework. Building on this abstraction, VoxServe implements streaming-aware scheduling and an asynchronous inference pipeline to improve end-to-end efficiency. Evaluations across multiple modern SpeechLMs show that VoxServe achieves 10-20x higher throughput than existing implementations at comparable latency while maintaining high streaming viability. The code of VoxServe is available at https://github.com/vox-serve/vox-serve.
PDF62March 12, 2026