VoxServe: Система обслуживания речевых языковых моделей с ориентацией на потоковую передачу
VoxServe: Streaming-Centric Serving System for Speech Language Models
January 30, 2026
Авторы: Keisuke Kamahori, Wei-Tzu Lee, Atindra Jha, Rohan Kadekodi, Stephanie Wang, Arvind Krishnamurthy, Baris Kasikci
cs.AI
Аннотация
Развертывание современных речевых языковых моделей (SpeechLMs) в потоковых сценариях требует систем, обеспечивающих низкую задержку, высокую пропускную способность и надежные гарантии пригодности для потоковой передачи. Существующие системы не обеспечивают гибкой и эффективной поддержки разнообразных моделей. Мы представляем VoxServe — унифицированную систему обслуживания SpeechLMs, которая оптимизирует потоковую производительность. VoxServe вводит абстракцию выполнения моделей, которая отделяет архитектуру модели от системных оптимизаций, тем самым обеспечивая поддержку различных архитектур SpeechLM в единой системе. На основе этой абстракции VoxServe реализует потоковое планирование и асинхронный конвейер вывода для повышения сквозной эффективности. Оценки на множестве современных SpeechLMs показывают, что VoxServe обеспечивает в 10–20 раз более высокую пропускную способность по сравнению с существующими реализациями при сопоставимой задержке, сохраняя высокую пригодность для потоковой передачи. Код VoxServe доступен по адресу https://github.com/vox-serve/vox-serve.
English
Deploying modern Speech Language Models (SpeechLMs) in streaming settings requires systems that provide low latency, high throughput, and strong guarantees of streamability. Existing systems fall short of supporting diverse models flexibly and efficiently. We present VoxServe, a unified serving system for SpeechLMs that optimizes streaming performance. VoxServe introduces a model-execution abstraction that decouples model architecture from system-level optimizations, thereby enabling support for diverse SpeechLM architectures within a single framework. Building on this abstraction, VoxServe implements streaming-aware scheduling and an asynchronous inference pipeline to improve end-to-end efficiency. Evaluations across multiple modern SpeechLMs show that VoxServe achieves 10-20x higher throughput than existing implementations at comparable latency while maintaining high streaming viability. The code of VoxServe is available at https://github.com/vox-serve/vox-serve.