VIBEVOICE-ASR Technisch Rapport
VIBEVOICE-ASR Technical Report
January 26, 2026
Auteurs: Zhiliang Peng, Jianwei Yu, Yaoyao Chang, Zilong Wang, Li Dong, Yingbo Hao, Yujie Tu, Chenyu Yang, Wenhui Wang, Songchen Xu, Yutao Sun, Hangbo Bao, Weijiang Xu, Yi Zhu, Zehua Wang, Ting Song, Yan Xia, Zewen Chi, Shaohan Huang, Liang Wang, Chuang Ding, Shuai Wang, Xie Chen, Furu Wei
cs.AI
Samenvatting
Dit rapport presenteert VibeVoice-ASR, een algemeen spraakbegripkader gebaseerd op VibeVoice, dat is ontworpen om de hardnekkige uitdagingen van contextfragmentatie en complexiteit bij meerdere sprekers in lange audio-opnames (bijvoorbeeld vergaderingen, podcasts) aan te pakken. Deze uitdagingen blijven bestaan ondanks recente vooruitgang in spraakherkenning voor kere fragmenten. In tegenstelling tot traditionele gepipelineerde benaderingen die afhankelijk zijn van het opdelen van audio in segmenten, ondersteunt VibeVoice-ASR eenmalige verwerking van audio tot 60 minuten. Het verenigt Automatische Spraakherkenning, Sprekerdiarisering en Tijdstempeling in één end-to-end generatietaak. Daarnaast ondersteunt VibeVoice-ASR meer dan 50 talen, vereist het geen expliciete taalinstelling en verwerkt het naadloos code-switching binnen en tussen uitingen. Verder introduceren we een op prompts gebaseerd mechanisme voor contextinjectie, waarmee gebruikers aangepaste context kunnen aanleveren. Dit verbetert de nauwkeurigheid aanzienlijk voor domeinspecifieke terminologie en de disambiguatie van homofone karakters.
English
This report presents VibeVoice-ASR, a general-purpose speech understanding framework built upon VibeVoice, designed to address the persistent challenges of context fragmentation and multi-speaker complexity in long-form audio (e.g., meetings, podcasts) that remain despite recent advancements in short-form speech recognition. Unlike traditional pipelined approaches that rely on audio chunking, VibeVoice-ASRsupports single-pass processing for up to 60 minutes of audio. It unifies Automatic Speech Recognition, Speaker Diarization, and Timestamping into a single end-to-end generation task. In addition, VibeVoice-ASR supports over 50 languages, requires no explicit language setting, and natively handles code-switching within and across utterances. Furthermore, we introduce a prompt-based context injection mechanism that allows users to supply customized conetxt, significantly improving accuracy on domain-specific terminology and polyphonic character disambiguation.