VibeVoice技術レポートVibeVoice Technical Report
本報告書では、VibeVoiceという新しいモデルを紹介します。このモデルは、複数の話者による長文音声を合成するために設計されており、拡散法を用いて潜在ベクトルを自己回帰的に生成することで連続データをモデル化する統一手法であるnext-token diffusionを採用しています。これを実現するために、我々は新しい連続音声トークナイザーを導入しました。このトークナイザーは、広く使われているEncodecモデルと比較して、同等の性能を維持しながらデータ圧縮率を80倍向上させます。このトークナイザーは、音声の忠実度を効果的に保ちつつ、長いシーケンスの処理における計算効率を大幅に向上させます。その結果、VibeVoiceは最大4人の話者による最長90分(64Kのコンテキストウィンドウ長)の長文音声を合成することができ、本物の会話の「雰囲気」を捉え、オープンソースおよびプロプライエタリな対話モデルを凌駕します。