ChatPaper.aiChatPaper

VIBEVOICE-ASR Technischer Bericht

VIBEVOICE-ASR Technical Report

January 26, 2026
papers.authors: Zhiliang Peng, Jianwei Yu, Yaoyao Chang, Zilong Wang, Li Dong, Yingbo Hao, Yujie Tu, Chenyu Yang, Wenhui Wang, Songchen Xu, Yutao Sun, Hangbo Bao, Weijiang Xu, Yi Zhu, Zehua Wang, Ting Song, Yan Xia, Zewen Chi, Shaohan Huang, Liang Wang, Chuang Ding, Shuai Wang, Xie Chen, Furu Wei
cs.AI

papers.abstract

Dieser Bericht stellt VibeVoice-ASR vor, ein allgemeines Sprachverständnis-Framework, das auf VibeVoice aufbaut und entwickelt wurde, um die anhaltenden Herausforderungen der Kontextfragmentierung und der Komplexität bei mehreren Sprechern in Langform-Audioaufnahmen (z. B. Besprechungen, Podcasts) zu adressieren, die trotz jüngster Fortschritte in der Kurzform-Spracherkennung bestehen bleiben. Im Gegensatz zu traditionellen Pipeline-Ansätzen, die auf der Unterteilung von Audiosegmenten basieren, unterstützt VibeVoice-ASR die Einzel-Durchlauf-Verarbeitung von bis zu 60 Minuten Audiodaten. Es vereint Automatische Spracherkennung, Sprecherdiarisierung und Zeitstempelvergabe in einer einzigen End-to-End-Generierungsaufgabe. Darüber hinaus unterstützt VibeVoice-ASR über 50 Sprachen, erfordert keine explizite Spracheneinstellung und verarbeitet nativ Codeswitching innerhalb und über Äußerungen hinweg. Des Weiteren führen wir einen prompt-basierten Kontextinjektionsmechanismus ein, der es Nutzern ermöglicht, benutzerdefinierte Kontexte einzubringen, was die Genauigkeit bei domainspezifischer Terminologie und der Disambiguierung mehrdeutiger Zeichen signifikant verbessert.
English
This report presents VibeVoice-ASR, a general-purpose speech understanding framework built upon VibeVoice, designed to address the persistent challenges of context fragmentation and multi-speaker complexity in long-form audio (e.g., meetings, podcasts) that remain despite recent advancements in short-form speech recognition. Unlike traditional pipelined approaches that rely on audio chunking, VibeVoice-ASRsupports single-pass processing for up to 60 minutes of audio. It unifies Automatic Speech Recognition, Speaker Diarization, and Timestamping into a single end-to-end generation task. In addition, VibeVoice-ASR supports over 50 languages, requires no explicit language setting, and natively handles code-switching within and across utterances. Furthermore, we introduce a prompt-based context injection mechanism that allows users to supply customized conetxt, significantly improving accuracy on domain-specific terminology and polyphonic character disambiguation.
PDF111January 28, 2026