MiniMax-Speech: 学習可能な話者エンコーダを備えた本質的ゼロショットテキスト読み上げMiniMax-Speech: Intrinsic Zero-Shot Text-to-Speech with a Learnable
Speaker Encoder
MiniMax-Speechを紹介します。これは、高品質な音声を生成する自己回帰型Transformerベースのテキスト読み上げ(TTS)モデルです。主な革新点は、学習可能な話者エンコーダであり、参照音声から文字起こしを必要とせずに音色特徴を抽出します。これにより、MiniMax-Speechはゼロショットで参照音声と一貫した音色を持つ高度に表現力豊かな音声を生成できるだけでなく、ワンショット音声クローンにおいても参照音声に非常に高い類似性を実現します。さらに、提案されたFlow-VAEにより、合成音声の全体的な品質が向上しています。本モデルは32言語をサポートし、複数の客観的および主観的評価指標において優れた性能を示しています。特に、客観的音声クローンメトリクス(単語誤り率と話者類似性)において最先端(SOTA)の結果を達成し、公開TTS Arenaリーダーボードで首位を獲得しています。MiniMax-Speechのもう一つの重要な強みは、話者エンコーダから得られる堅牢で分離された表現により、ベースモデルを変更することなく拡張性が高いことです。これにより、LoRAを介した任意の音声感情制御、テキスト記述から直接音色特徴を合成するテキストから音声(T2V)、追加データを用いて音色特徴を微調整するプロフェッショナル音声クローン(PVC)など、様々な応用が可能です。より多くの例については、https://minimax-ai.github.io/tts_tech_report をご覧ください。