ChatPaper.aiChatPaper

Informe Técnico de VIBEVOICE-ASR

VIBEVOICE-ASR Technical Report

January 26, 2026
Autores: Zhiliang Peng, Jianwei Yu, Yaoyao Chang, Zilong Wang, Li Dong, Yingbo Hao, Yujie Tu, Chenyu Yang, Wenhui Wang, Songchen Xu, Yutao Sun, Hangbo Bao, Weijiang Xu, Yi Zhu, Zehua Wang, Ting Song, Yan Xia, Zewen Chi, Shaohan Huang, Liang Wang, Chuang Ding, Shuai Wang, Xie Chen, Furu Wei
cs.AI

Resumen

Este informe presenta VibeVoice-ASR, un marco de comprensión del habla de propósito general construido sobre VibeVoice, diseñado para abordar los desafíos persistentes de fragmentación de contexto y complejidad de múltiples interlocutores en audio de larga duración (por ejemplo, reuniones, podcasts) que persisten a pesar de los avances recientes en el reconocimiento del habla de formato corto. A diferencia de los enfoques tradicionales en pipeline que dependen de la división del audio en fragmentos, VibeVoice-ASR admite el procesamiento en una sola pasada para audios de hasta 60 minutos. Unifica el Reconocimiento Automático del Habla, la Diarización de Locutores y la Marcación Temporal en una única tarea de generación de extremo a extremo. Además, VibeVoice-ASR es compatible con más de 50 idiomas, no requiere una configuración de idioma explícita y maneja de forma nativa el cambio de código dentro de las emisiones y entre ellas. Asimismo, introducimos un mecanismo de inyección de contexto basado en prompts que permite a los usuarios suministrar contexto personalizado, mejorando significativamente la precisión en terminología específica de dominio y la desambiguación de caracteres polifónicos.
English
This report presents VibeVoice-ASR, a general-purpose speech understanding framework built upon VibeVoice, designed to address the persistent challenges of context fragmentation and multi-speaker complexity in long-form audio (e.g., meetings, podcasts) that remain despite recent advancements in short-form speech recognition. Unlike traditional pipelined approaches that rely on audio chunking, VibeVoice-ASRsupports single-pass processing for up to 60 minutes of audio. It unifies Automatic Speech Recognition, Speaker Diarization, and Timestamping into a single end-to-end generation task. In addition, VibeVoice-ASR supports over 50 languages, requires no explicit language setting, and natively handles code-switching within and across utterances. Furthermore, we introduce a prompt-based context injection mechanism that allows users to supply customized conetxt, significantly improving accuracy on domain-specific terminology and polyphonic character disambiguation.
PDF111January 28, 2026