Seed-TTS: 高品質で汎用性の高い音声生成モデルファミリーSeed-TTS: A Family of High-Quality Versatile Speech Generation Models
私たちは、人間の音声とほとんど区別がつかない音声を生成可能な大規模自己回帰型テキスト音声合成(TTS)モデル群であるSeed-TTSを紹介します。Seed-TTSは音声生成の基盤モデルとして機能し、文脈内学習において優れた性能を発揮し、客観的および主観的評価の両方で、話者類似性と自然さにおいて人間の音声に匹敵する結果を達成します。ファインチューニングを行うことで、これらの指標においてさらに高い主観的スコアを実現します。Seed-TTSは、感情などのさまざまな音声属性に対する優れた制御性を提供し、実世界の話者に対して非常に表現力豊かで多様な音声を生成することが可能です。さらに、音声の因数分解のための自己蒸留法と、モデルの堅牢性、話者類似性、制御性を向上させるための強化学習アプローチを提案します。また、完全に拡散ベースのアーキテクチャを採用した非自己回帰(NAR)型のSeed-TTSモデルであるSeed-TTS_DiTを紹介します。従来のNARベースのTTSシステムとは異なり、Seed-TTS_DiTは事前に推定された音素の持続時間に依存せず、エンドツーエンド処理による音声生成を行います。このバリアントが言語モデルベースのバリアントと同等の性能を達成し、音声編集においてその有効性を示すことを実証します。デモ音声はhttps://bytedancespeech.github.io/seedtts_tech_reportでご確認いただけます。