VoxServe: 음성 언어 모델을 위한 스트리밍 중심 서빙 시스템
VoxServe: Streaming-Centric Serving System for Speech Language Models
January 30, 2026
저자: Keisuke Kamahori, Wei-Tzu Lee, Atindra Jha, Rohan Kadekodi, Stephanie Wang, Arvind Krishnamurthy, Baris Kasikci
cs.AI
초록
현대 음성 언어 모델(SpeechLM)을 스트리밍 환경에 배포하려면 낮은 지연 시간, 높은 처리량, 강력한 스트리밍 가능성 보장을 제공하는 시스템이 필요하다. 기존 시스템은 다양한 모델을 유연하고 효율적으로 지원하는 데 한계가 있다. 본 논문에서는 SpeechLM의 스트리밍 성능을 최적화하는 통합 서빙 시스템인 VoxServe를 제안한다. VoxServe는 모델 아키텍처와 시스템 수준 최적화를 분리하는 모델 실행 추상화를 도입하여 단일 프레임워크 내에서 다양한 SpeechLM 아키텍처를 지원할 수 있도록 한다. 이 추상화를 기반으로 VoxServe는 스트리밍 인식 스케줄링과 비동기 추론 파이프라인을 구현하여 엔드투엔드 효율성을 향상시킨다. 다양한 현대 SpeechLM에 대한 평가 결과, VoxServe는 유사한 지연 시간 대비 기존 구현 대비 10-20배 높은 처리량을 달성하면서도 높은 스트리밍 가능성을 유지하는 것으로 나타났다. VoxServe의 코드는 https://github.com/vox-serve/vox-serve에서 확인할 수 있다.
English
Deploying modern Speech Language Models (SpeechLMs) in streaming settings requires systems that provide low latency, high throughput, and strong guarantees of streamability. Existing systems fall short of supporting diverse models flexibly and efficiently. We present VoxServe, a unified serving system for SpeechLMs that optimizes streaming performance. VoxServe introduces a model-execution abstraction that decouples model architecture from system-level optimizations, thereby enabling support for diverse SpeechLM architectures within a single framework. Building on this abstraction, VoxServe implements streaming-aware scheduling and an asynchronous inference pipeline to improve end-to-end efficiency. Evaluations across multiple modern SpeechLMs show that VoxServe achieves 10-20x higher throughput than existing implementations at comparable latency while maintaining high streaming viability. The code of VoxServe is available at https://github.com/vox-serve/vox-serve.