Informe Técnico de VibeVoice
VibeVoice Technical Report
August 26, 2025
Autores: Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei
cs.AI
Resumen
Este informe presenta VibeVoice, un modelo novedoso diseñado para sintetizar discursos de larga duración con múltiples hablantes mediante el uso de difusión de siguiente token, un método unificado para modelar datos continuos mediante la generación autoregresiva de vectores latentes a través de difusión. Para lograrlo, introducimos un nuevo tokenizador de habla continua que, en comparación con el popular modelo Encodec, mejora la compresión de datos en 80 veces mientras mantiene un rendimiento comparable. El tokenizador preserva eficazmente la fidelidad del audio y aumenta significativamente la eficiencia computacional para procesar secuencias largas. Así, VibeVoice puede sintetizar discursos de hasta 90 minutos (en una ventana de contexto de 64K) con un máximo de 4 hablantes, capturando el "ambiente" conversacional auténtico y superando a los modelos de diálogo tanto de código abierto como propietarios.
English
This report presents VibeVoice, a novel model designed to synthesize
long-form speech with multiple speakers by employing next-token diffusion,
which is a unified method for modeling continuous data by autoregressively
generating latent vectors via diffusion. To enable this, we introduce a novel
continuous speech tokenizer that, when compared to the popular Encodec model,
improves data compression by 80 times while maintaining comparable performance.
The tokenizer effectively preserves audio fidelity while significantly boosting
computational efficiency for processing long sequences. Thus, VibeVoice can
synthesize long-form speech for up to 90 minutes (in a 64K context window
length) with a maximum of 4 speakers, capturing the authentic conversational
``vibe'' and surpassing open-source and proprietary dialogue models.