PromptTTS 2: テキストプロンプトによる音声の記述と生成
PromptTTS 2: Describing and Generating Voices with Text Prompt
September 5, 2023
著者: Yichong Leng, Zhifang Guo, Kai Shen, Xu Tan, Zeqian Ju, Yanqing Liu, Yufei Liu, Dongchao Yang, Leying Zhang, Kaitao Song, Lei He, Xiang-Yang Li, Sheng Zhao, Tao Qin, Jiang Bian
cs.AI
要旨
音声はテキスト以上の情報を伝えることができます。なぜなら、同じ単語でも様々な声で発話することで多様な情報を伝えることができるからです。音声プロンプト(参照音声)に依存して声の多様性を実現する従来のテキスト音声合成(TTS)手法と比較して、テキストプロンプト(記述)を使用する方がユーザーフレンドリーです。なぜなら、音声プロンプトは見つけるのが難しい場合や、そもそも存在しない場合があるからです。テキストプロンプトに基づくTTSアプローチは、2つの課題に直面しています:1)一対多の問題、つまりテキストプロンプトに声の多様性に関するすべての詳細を記述することができないこと、2)テキストプロンプトデータセットの限られた可用性、つまりベンダーとデータラベリングの多大なコストが必要とされることです。本研究では、これらの課題を解決するためにPromptTTS 2を紹介します。PromptTTS 2は、テキストプロンプトで捕捉されない声の多様性情報を提供する変動ネットワークと、大規模言語モデル(LLM)を利用して高品質なテキストプロンプトを作成するプロンプト生成パイプラインを備えています。具体的には、変動ネットワークは、テキストプロンプト表現に基づいて、参照音声(声に関する完全な情報を含む)から抽出された表現を予測します。プロンプト生成パイプラインでは、音声理解モデルを使用して音声から声の属性(例:性別、速度)を認識し、認識結果に基づいて大規模言語モデルを使用してテキストプロンプトを作成します。大規模(44K時間)音声データセットでの実験により、PromptTTS 2は従来の研究と比較して、テキストプロンプトにより一貫した声を生成し、多様な声の多様性のサンプリングをサポートすることで、ユーザーに声生成のより多くの選択肢を提供することが示されました。さらに、プロンプト生成パイプラインは高品質なプロンプトを生成し、多大なラベリングコストを排除します。PromptTTS 2のデモページはオンラインで利用可能ですhttps://speechresearch.github.io/prompttts2。
English
Speech conveys more information than just text, as the same word can be
uttered in various voices to convey diverse information. Compared to
traditional text-to-speech (TTS) methods relying on speech prompts (reference
speech) for voice variability, using text prompts (descriptions) is more
user-friendly since speech prompts can be hard to find or may not exist at all.
TTS approaches based on the text prompt face two challenges: 1) the one-to-many
problem, where not all details about voice variability can be described in the
text prompt, and 2) the limited availability of text prompt datasets, where
vendors and large cost of data labeling are required to write text prompt for
speech. In this work, we introduce PromptTTS 2 to address these challenges with
a variation network to provide variability information of voice not captured by
text prompts, and a prompt generation pipeline to utilize the large language
models (LLM) to compose high quality text prompts. Specifically, the variation
network predicts the representation extracted from the reference speech (which
contains full information about voice) based on the text prompt representation.
For the prompt generation pipeline, it generates text prompts for speech with a
speech understanding model to recognize voice attributes (e.g., gender, speed)
from speech and a large language model to formulate text prompt based on the
recognition results. Experiments on a large-scale (44K hours) speech dataset
demonstrate that compared to the previous works, PromptTTS 2 generates voices
more consistent with text prompts and supports the sampling of diverse voice
variability, thereby offering users more choices on voice generation.
Additionally, the prompt generation pipeline produces high-quality prompts,
eliminating the large labeling cost. The demo page of PromptTTS 2 is available
onlinehttps://speechresearch.github.io/prompttts2.