PromptTTS 2: Beschreibung und Erzeugung von Stimmen mit Textprompts
PromptTTS 2: Describing and Generating Voices with Text Prompt
September 5, 2023
Autoren: Yichong Leng, Zhifang Guo, Kai Shen, Xu Tan, Zeqian Ju, Yanqing Liu, Yufei Liu, Dongchao Yang, Leying Zhang, Kaitao Song, Lei He, Xiang-Yang Li, Sheng Zhao, Tao Qin, Jiang Bian
cs.AI
Zusammenfassung
Sprache vermittelt mehr Informationen als bloßer Text, da dasselbe Wort in verschiedenen Stimmen ausgesprochen werden kann, um unterschiedliche Informationen zu übermitteln. Im Vergleich zu traditionellen Text-zu-Sprache (TTS)-Methoden, die sich auf Sprachprompts (Referenzsprache) für die Stimmvariabilität verlassen, ist die Verwendung von Textprompts (Beschreibungen) benutzerfreundlicher, da Sprachprompts schwer zu finden sein können oder möglicherweise überhaupt nicht existieren. TTS-Ansätze, die auf Textprompts basieren, stehen vor zwei Herausforderungen: 1) das Eins-zu-Viele-Problem, bei dem nicht alle Details über die Stimmvariabilität im Textprompt beschrieben werden können, und 2) die begrenzte Verfügbarkeit von Textprompt-Datensätzen, bei denen Anbieter und hohe Kosten für die Datenbeschriftung erforderlich sind, um Textprompts für Sprache zu erstellen. In dieser Arbeit stellen wir PromptTTS 2 vor, um diese Herausforderungen mit einem Variationsnetzwerk zu bewältigen, das Variabilitätsinformationen der Stimme liefert, die nicht durch Textprompts erfasst werden, und einer Prompt-Generierungspipeline, die große Sprachmodelle (LLM) nutzt, um hochwertige Textprompts zu erstellen. Konkret sagt das Variationsnetzwerk die Darstellung voraus, die aus der Referenzsprache (die vollständige Informationen über die Stimme enthält) basierend auf der Textprompt-Darstellung extrahiert wird. Für die Prompt-Generierungspipeline generiert sie Textprompts für Sprache mit einem Sprachverständnismodell, um Stimmattribute (z. B. Geschlecht, Geschwindigkeit) aus der Sprache zu erkennen, und einem großen Sprachmodell, um den Textprompt basierend auf den Erkennungsergebnissen zu formulieren. Experimente mit einem groß angelegten (44.000 Stunden) Sprachdatensatz zeigen, dass PromptTTS 2 im Vergleich zu früheren Arbeiten Stimmen erzeugt, die konsistenter mit Textprompts sind, und die Stichprobenbildung verschiedener Stimmvariabilitäten unterstützt, wodurch den Nutzern mehr Möglichkeiten zur Stimmerzeugung geboten werden. Darüber hinaus produziert die Prompt-Generierungspipeline hochwertige Prompts und eliminiert die hohen Kosten für die Beschriftung. Die Demo-Seite von PromptTTS 2 ist online verfügbar: https://speechresearch.github.io/prompttts2.
English
Speech conveys more information than just text, as the same word can be
uttered in various voices to convey diverse information. Compared to
traditional text-to-speech (TTS) methods relying on speech prompts (reference
speech) for voice variability, using text prompts (descriptions) is more
user-friendly since speech prompts can be hard to find or may not exist at all.
TTS approaches based on the text prompt face two challenges: 1) the one-to-many
problem, where not all details about voice variability can be described in the
text prompt, and 2) the limited availability of text prompt datasets, where
vendors and large cost of data labeling are required to write text prompt for
speech. In this work, we introduce PromptTTS 2 to address these challenges with
a variation network to provide variability information of voice not captured by
text prompts, and a prompt generation pipeline to utilize the large language
models (LLM) to compose high quality text prompts. Specifically, the variation
network predicts the representation extracted from the reference speech (which
contains full information about voice) based on the text prompt representation.
For the prompt generation pipeline, it generates text prompts for speech with a
speech understanding model to recognize voice attributes (e.g., gender, speed)
from speech and a large language model to formulate text prompt based on the
recognition results. Experiments on a large-scale (44K hours) speech dataset
demonstrate that compared to the previous works, PromptTTS 2 generates voices
more consistent with text prompts and supports the sampling of diverse voice
variability, thereby offering users more choices on voice generation.
Additionally, the prompt generation pipeline produces high-quality prompts,
eliminating the large labeling cost. The demo page of PromptTTS 2 is available
onlinehttps://speechresearch.github.io/prompttts2.