VibeVoice Technischer Bericht
VibeVoice Technical Report
August 26, 2025
papers.authors: Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei
cs.AI
papers.abstract
Dieser Bericht stellt VibeVoice vor, ein neuartiges Modell, das darauf ausgelegt ist, langformatige Sprache mit mehreren Sprechern zu synthetisieren, indem es Next-Token-Diffusion verwendet, eine einheitliche Methode zur Modellierung kontinuierlicher Daten durch autoregressives Generieren latenter Vektoren mittels Diffusion. Um dies zu ermöglichen, führen wir einen neuartigen kontinuierlichen Sprach-Tokenizer ein, der im Vergleich zum populären Encodec-Modell die Datenkompression um das 80-fache verbessert, bei gleichbleibender Leistung. Der Tokenizer bewahrt effektiv die Audioqualität, während er die Recheneffizienz für die Verarbeitung langer Sequenzen erheblich steigert. Somit kann VibeVoice langformatige Sprache von bis zu 90 Minuten (in einem 64K-Kontextfenster) mit maximal 4 Sprechern synthetisieren, den authentischen Gesprächs-„Vibe“ einfangen und sowohl Open-Source- als auch proprietäre Dialogmodelle übertreffen.
English
This report presents VibeVoice, a novel model designed to synthesize
long-form speech with multiple speakers by employing next-token diffusion,
which is a unified method for modeling continuous data by autoregressively
generating latent vectors via diffusion. To enable this, we introduce a novel
continuous speech tokenizer that, when compared to the popular Encodec model,
improves data compression by 80 times while maintaining comparable performance.
The tokenizer effectively preserves audio fidelity while significantly boosting
computational efficiency for processing long sequences. Thus, VibeVoice can
synthesize long-form speech for up to 90 minutes (in a 64K context window
length) with a maximum of 4 speakers, capturing the authentic conversational
``vibe'' and surpassing open-source and proprietary dialogue models.