ChatPaper.aiChatPaper

Mega-TTS 2: 任意長音声プロンプトを用いたゼロショットテキスト読み上げ

Mega-TTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts

July 14, 2023
著者: Ziyue Jiang, Jinglin Liu, Yi Ren, Jinzheng He, Chen Zhang, Zhenhui Ye, Pengfei Wei, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao
cs.AI

要旨

ゼロショットテキスト音声合成は、未見の音声プロンプトを用いて声を合成することを目指しています。これまでの大規模マルチスピーカーTTSモデルは、10秒以内の登録録音を用いてこの目標を達成することに成功してきました。しかし、その多くは短い音声プロンプトのみを利用するように設計されています。短い音声プロンプトに含まれる限られた情報は、細かなアイデンティティの模倣性能を大幅に妨げます。本論文では、任意の長さのプロンプトを用いて未見の話者の音声を合成可能な汎用的なゼロショットマルチスピーカーTTSモデル、Mega-TTS 2を紹介します。具体的には、1) 複数の参照音声から音色情報を抽出するマルチリファレンス音色エンコーダを設計し、2) 任意の長さの音声プロンプトを用いてプロソディ言語モデルを訓練します。これらの設計により、我々のモデルは異なる長さのプロンプトに適応可能であり、ゼロショットテキスト音声合成の音質の上限を拡張します。任意の長さのプロンプトに加えて、複数のP-LLM出力から得られる確率を活用して表現力豊かで制御されたプロソディを生成する任意ソースプロンプトを導入します。さらに、コンテキスト内学習能力を持続時間モデリングに導入するために、音素レベルの自己回帰型持続時間モデルを提案します。実験結果は、我々の手法が未見の話者の短いプロンプトを用いてアイデンティティを保持した音声を合成できるだけでなく、より長い音声プロンプトを用いることで性能が向上することを示しています。音声サンプルはhttps://mega-tts.github.io/mega2_demo/で確認できます。
English
Zero-shot text-to-speech aims at synthesizing voices with unseen speech prompts. Previous large-scale multispeaker TTS models have successfully achieved this goal with an enrolled recording within 10 seconds. However, most of them are designed to utilize only short speech prompts. The limited information in short speech prompts significantly hinders the performance of fine-grained identity imitation. In this paper, we introduce Mega-TTS 2, a generic zero-shot multispeaker TTS model that is capable of synthesizing speech for unseen speakers with arbitrary-length prompts. Specifically, we 1) design a multi-reference timbre encoder to extract timbre information from multiple reference speeches; 2) and train a prosody language model with arbitrary-length speech prompts; With these designs, our model is suitable for prompts of different lengths, which extends the upper bound of speech quality for zero-shot text-to-speech. Besides arbitrary-length prompts, we introduce arbitrary-source prompts, which leverages the probabilities derived from multiple P-LLM outputs to produce expressive and controlled prosody. Furthermore, we propose a phoneme-level auto-regressive duration model to introduce in-context learning capabilities to duration modeling. Experiments demonstrate that our method could not only synthesize identity-preserving speech with a short prompt of an unseen speaker but also achieve improved performance with longer speech prompts. Audio samples can be found in https://mega-tts.github.io/mega2_demo/.
PDF2710December 15, 2024