Rapporto Tecnico di VibeVoice
VibeVoice Technical Report
August 26, 2025
Autori: Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei
cs.AI
Abstract
Questo rapporto presenta VibeVoice, un modello innovativo progettato per sintetizzare discorsi di lunga durata con più parlanti utilizzando la diffusione del token successivo, un metodo unificato per modellare dati continui attraverso la generazione autoregressiva di vettori latenti tramite diffusione. Per rendere ciò possibile, introduciamo un nuovo tokenizzatore continuo per il parlato che, rispetto al popolare modello Encodec, migliora la compressione dei dati di 80 volte mantenendo prestazioni comparabili. Il tokenizzatore preserva efficacemente la fedeltà audio mentre aumenta significativamente l'efficienza computazionale per l'elaborazione di sequenze lunghe. Di conseguenza, VibeVoice è in grado di sintetizzare discorsi di lunga durata fino a 90 minuti (in una finestra di contesto di 64K) con un massimo di 4 parlanti, catturando l'autentica "vibrazione" conversazionale e superando i modelli di dialogo open-source e proprietari.
English
This report presents VibeVoice, a novel model designed to synthesize
long-form speech with multiple speakers by employing next-token diffusion,
which is a unified method for modeling continuous data by autoregressively
generating latent vectors via diffusion. To enable this, we introduce a novel
continuous speech tokenizer that, when compared to the popular Encodec model,
improves data compression by 80 times while maintaining comparable performance.
The tokenizer effectively preserves audio fidelity while significantly boosting
computational efficiency for processing long sequences. Thus, VibeVoice can
synthesize long-form speech for up to 90 minutes (in a 64K context window
length) with a maximum of 4 speakers, capturing the authentic conversational
``vibe'' and surpassing open-source and proprietary dialogue models.