PromptTTS 2 : Décrire et générer des voix avec des invites textuelles
PromptTTS 2: Describing and Generating Voices with Text Prompt
September 5, 2023
Auteurs: Yichong Leng, Zhifang Guo, Kai Shen, Xu Tan, Zeqian Ju, Yanqing Liu, Yufei Liu, Dongchao Yang, Leying Zhang, Kaitao Song, Lei He, Xiang-Yang Li, Sheng Zhao, Tao Qin, Jiang Bian
cs.AI
Résumé
La parole véhicule plus d'informations que le simple texte, car un même mot peut être prononcé avec différentes voix pour transmettre des informations variées. Par rapport aux méthodes traditionnelles de synthèse vocale (TTS) qui s'appuient sur des prompts vocaux (référence vocale) pour la variabilité de la voix, l'utilisation de prompts textuels (descriptions) est plus conviviale, car les prompts vocaux peuvent être difficiles à trouver ou même inexistants. Les approches TTS basées sur les prompts textuels rencontrent deux défis : 1) le problème de la relation un-à-plusieurs, où tous les détails concernant la variabilité de la voix ne peuvent pas être décrits dans le prompt textuel, et 2) la disponibilité limitée des jeux de données de prompts textuels, nécessitant des fournisseurs et un coût élevé d'étiquetage des données pour rédiger des prompts textuels pour la parole. Dans ce travail, nous présentons PromptTTS 2 pour relever ces défis avec un réseau de variation pour fournir des informations de variabilité de la voix non capturées par les prompts textuels, et un pipeline de génération de prompts pour utiliser les grands modèles de langage (LLM) afin de composer des prompts textuels de haute qualité. Plus précisément, le réseau de variation prédit la représentation extraite de la référence vocale (qui contient toutes les informations sur la voix) en se basant sur la représentation du prompt textuel. Pour le pipeline de génération de prompts, il génère des prompts textuels pour la parole avec un modèle de compréhension vocale pour reconnaître les attributs de la voix (par exemple, le genre, la vitesse) à partir de la parole et un grand modèle de langage pour formuler le prompt textuel en fonction des résultats de la reconnaissance. Les expériences sur un jeu de données vocales à grande échelle (44 000 heures) montrent que, par rapport aux travaux précédents, PromptTTS 2 génère des voix plus cohérentes avec les prompts textuels et permet l'échantillonnage d'une variété de voix, offrant ainsi aux utilisateurs plus de choix pour la génération vocale. De plus, le pipeline de génération de prompts produit des prompts de haute qualité, éliminant le coût élevé de l'étiquetage. La page de démonstration de PromptTTS 2 est disponible en ligne à l'adresse suivante : https://speechresearch.github.io/prompttts2.
English
Speech conveys more information than just text, as the same word can be
uttered in various voices to convey diverse information. Compared to
traditional text-to-speech (TTS) methods relying on speech prompts (reference
speech) for voice variability, using text prompts (descriptions) is more
user-friendly since speech prompts can be hard to find or may not exist at all.
TTS approaches based on the text prompt face two challenges: 1) the one-to-many
problem, where not all details about voice variability can be described in the
text prompt, and 2) the limited availability of text prompt datasets, where
vendors and large cost of data labeling are required to write text prompt for
speech. In this work, we introduce PromptTTS 2 to address these challenges with
a variation network to provide variability information of voice not captured by
text prompts, and a prompt generation pipeline to utilize the large language
models (LLM) to compose high quality text prompts. Specifically, the variation
network predicts the representation extracted from the reference speech (which
contains full information about voice) based on the text prompt representation.
For the prompt generation pipeline, it generates text prompts for speech with a
speech understanding model to recognize voice attributes (e.g., gender, speed)
from speech and a large language model to formulate text prompt based on the
recognition results. Experiments on a large-scale (44K hours) speech dataset
demonstrate that compared to the previous works, PromptTTS 2 generates voices
more consistent with text prompts and supports the sampling of diverse voice
variability, thereby offering users more choices on voice generation.
Additionally, the prompt generation pipeline produces high-quality prompts,
eliminating the large labeling cost. The demo page of PromptTTS 2 is available
onlinehttps://speechresearch.github.io/prompttts2.