ChatPaper.aiChatPaper

Rapport Technique VIBEVOICE-ASR

VIBEVOICE-ASR Technical Report

January 26, 2026
papers.authors: Zhiliang Peng, Jianwei Yu, Yaoyao Chang, Zilong Wang, Li Dong, Yingbo Hao, Yujie Tu, Chenyu Yang, Wenhui Wang, Songchen Xu, Yutao Sun, Hangbo Bao, Weijiang Xu, Yi Zhu, Zehua Wang, Ting Song, Yan Xia, Zewen Chi, Shaohan Huang, Liang Wang, Chuang Ding, Shuai Wang, Xie Chen, Furu Wei
cs.AI

papers.abstract

Ce rapport présente VibeVoice-ASR, un cadre général de compréhension de la parole construit sur VibeVoice, conçu pour relever les défis persistants de la fragmentation du contexte et de la complexité des interlocuteurs multiples dans les enregistrements audio de longue durée (par exemple, réunions, podcasts), défis qui subsistent malgré les récents progrès en reconnaissance vocale de courte durée. Contrairement aux approches traditionnelles en pipeline qui reposent sur le découpage audio, VibeVoice-ASR prend en charge le traitement en une seule passe pour des enregistrements audio allant jusqu'à 60 minutes. Il unifie la Reconnaissance Automatique de la Parole, la Diarisation des Locuteurs et l'Horodatage en une seule tâche de génération de bout en bout. De plus, VibeVoice-ASR prend en charge plus de 50 langues, ne nécessite aucun réglage linguistique explicite et gère nativement l'alternance codique au sein des énoncés et entre eux. Par ailleurs, nous introduisons un mécanisme d'injection de contexte par invite qui permet aux utilisateurs de fournir un contexte personnalisé, améliorant significativement la précision sur la terminologie spécifique à un domaine et la désambiguïsation des caractères polyphoniques.
English
This report presents VibeVoice-ASR, a general-purpose speech understanding framework built upon VibeVoice, designed to address the persistent challenges of context fragmentation and multi-speaker complexity in long-form audio (e.g., meetings, podcasts) that remain despite recent advancements in short-form speech recognition. Unlike traditional pipelined approaches that rely on audio chunking, VibeVoice-ASRsupports single-pass processing for up to 60 minutes of audio. It unifies Automatic Speech Recognition, Speaker Diarization, and Timestamping into a single end-to-end generation task. In addition, VibeVoice-ASR supports over 50 languages, requires no explicit language setting, and natively handles code-switching within and across utterances. Furthermore, we introduce a prompt-based context injection mechanism that allows users to supply customized conetxt, significantly improving accuracy on domain-specific terminology and polyphonic character disambiguation.
PDF111January 28, 2026