VibeVoice技術レポート
VibeVoice Technical Report
August 26, 2025
著者: Zhiliang Peng, Jianwei Yu, Wenhui Wang, Yaoyao Chang, Yutao Sun, Li Dong, Yi Zhu, Weijiang Xu, Hangbo Bao, Zehua Wang, Shaohan Huang, Yan Xia, Furu Wei
cs.AI
要旨
本報告書では、VibeVoiceという新しいモデルを紹介します。このモデルは、複数の話者による長文音声を合成するために設計されており、拡散法を用いて潜在ベクトルを自己回帰的に生成することで連続データをモデル化する統一手法であるnext-token diffusionを採用しています。これを実現するために、我々は新しい連続音声トークナイザーを導入しました。このトークナイザーは、広く使われているEncodecモデルと比較して、同等の性能を維持しながらデータ圧縮率を80倍向上させます。このトークナイザーは、音声の忠実度を効果的に保ちつつ、長いシーケンスの処理における計算効率を大幅に向上させます。その結果、VibeVoiceは最大4人の話者による最長90分(64Kのコンテキストウィンドウ長)の長文音声を合成することができ、本物の会話の「雰囲気」を捉え、オープンソースおよびプロプライエタリな対話モデルを凌駕します。
English
This report presents VibeVoice, a novel model designed to synthesize
long-form speech with multiple speakers by employing next-token diffusion,
which is a unified method for modeling continuous data by autoregressively
generating latent vectors via diffusion. To enable this, we introduce a novel
continuous speech tokenizer that, when compared to the popular Encodec model,
improves data compression by 80 times while maintaining comparable performance.
The tokenizer effectively preserves audio fidelity while significantly boosting
computational efficiency for processing long sequences. Thus, VibeVoice can
synthesize long-form speech for up to 90 minutes (in a 64K context window
length) with a maximum of 4 speakers, capturing the authentic conversational
``vibe'' and surpassing open-source and proprietary dialogue models.