Informe Técnico de VIBEVOICE-ASR

Resumen

Este informe presenta VibeVoice-ASR, un marco de comprensión del habla de propósito general construido sobre VibeVoice, diseñado para abordar los desafíos persistentes de fragmentación de contexto y complejidad de múltiples interlocutores en audio de larga duración (por ejemplo, reuniones, podcasts) que persisten a pesar de los avances recientes en el reconocimiento del habla de formato corto. A diferencia de los enfoques tradicionales en pipeline que dependen de la división del audio en fragmentos, VibeVoice-ASR admite el procesamiento en una sola pasada para audios de hasta 60 minutos. Unifica el Reconocimiento Automático del Habla, la Diarización de Locutores y la Marcación Temporal en una única tarea de generación de extremo a extremo. Además, VibeVoice-ASR es compatible con más de 50 idiomas, no requiere una configuración de idioma explícita y maneja de forma nativa el cambio de código dentro de las emisiones y entre ellas. Asimismo, introducimos un mecanismo de inyección de contexto basado en prompts que permite a los usuarios suministrar contexto personalizado, mejorando significativamente la precisión en terminología específica de dominio y la desambiguación de caracteres polifónicos.

English

This report presents VibeVoice-ASR, a general-purpose speech understanding framework built upon VibeVoice, designed to address the persistent challenges of context fragmentation and multi-speaker complexity in long-form audio (e.g., meetings, podcasts) that remain despite recent advancements in short-form speech recognition. Unlike traditional pipelined approaches that rely on audio chunking, VibeVoice-ASRsupports single-pass processing for up to 60 minutes of audio. It unifies Automatic Speech Recognition, Speaker Diarization, and Timestamping into a single end-to-end generation task. In addition, VibeVoice-ASR supports over 50 languages, requires no explicit language setting, and natively handles code-switching within and across utterances. Furthermore, we introduce a prompt-based context injection mechanism that allows users to supply customized conetxt, significantly improving accuracy on domain-specific terminology and polyphonic character disambiguation.