ChatPaper.aiChatPaper

Rapporto Tecnico VIBEVOICE-ASR

VIBEVOICE-ASR Technical Report

January 26, 2026
Autori: Zhiliang Peng, Jianwei Yu, Yaoyao Chang, Zilong Wang, Li Dong, Yingbo Hao, Yujie Tu, Chenyu Yang, Wenhui Wang, Songchen Xu, Yutao Sun, Hangbo Bao, Weijiang Xu, Yi Zhu, Zehua Wang, Ting Song, Yan Xia, Zewen Chi, Shaohan Huang, Liang Wang, Chuang Ding, Shuai Wang, Xie Chen, Furu Wei
cs.AI

Abstract

Questo rapporto presenta VibeVoice-ASR, un framework generale per la comprensione del parlato basato su VibeVoice, progettato per affrontare le persistenti sfide della frammentazione del contesto e della complessità multi-relatore nell'audio di lunga durata (ad esempio, riunioni, podcast), che permangono nonostante i recenti progressi nel riconoscimento vocale per audio brevi. A differenza degli approcci tradizionali a pipeline che si basano sul frammentamento dell'audio, VibeVoice-ASR supporta l'elaborazione in un'unica passata per audio fino a 60 minuti. Esso unifica il Riconoscimento Vocale Automatico, la Diarizzazione del Parlato e la Marcatura Temporale in un'unica attività di generazione end-to-end. Inoltre, VibeVoice-ASR supporta oltre 50 lingue, non richiede un'impostazione linguistica esplicita e gestisce nativamente il code-switching all'interno e tra le espressioni. Inoltre, introduciamo un meccanismo di iniezione del contesto basato su prompt che consente agli utenti di fornire contesto personalizzato, migliorando significativamente l'accuratezza nella terminologia specifica di dominio e nella disambiguazione di caratteri polifonici.
English
This report presents VibeVoice-ASR, a general-purpose speech understanding framework built upon VibeVoice, designed to address the persistent challenges of context fragmentation and multi-speaker complexity in long-form audio (e.g., meetings, podcasts) that remain despite recent advancements in short-form speech recognition. Unlike traditional pipelined approaches that rely on audio chunking, VibeVoice-ASRsupports single-pass processing for up to 60 minutes of audio. It unifies Automatic Speech Recognition, Speaker Diarization, and Timestamping into a single end-to-end generation task. In addition, VibeVoice-ASR supports over 50 languages, requires no explicit language setting, and natively handles code-switching within and across utterances. Furthermore, we introduce a prompt-based context injection mechanism that allows users to supply customized conetxt, significantly improving accuracy on domain-specific terminology and polyphonic character disambiguation.
PDF223March 6, 2026