ChatPaper.aiChatPaper

PromptTTS 2: Descrevendo e Gerando Vozes com Prompt de Texto

PromptTTS 2: Describing and Generating Voices with Text Prompt

September 5, 2023
Autores: Yichong Leng, Zhifang Guo, Kai Shen, Xu Tan, Zeqian Ju, Yanqing Liu, Yufei Liu, Dongchao Yang, Leying Zhang, Kaitao Song, Lei He, Xiang-Yang Li, Sheng Zhao, Tao Qin, Jiang Bian
cs.AI

Resumo

A fala transmite mais informações do que apenas texto, pois a mesma palavra pode ser pronunciada em diversas vozes para transmitir informações variadas. Em comparação com os métodos tradicionais de conversão de texto em fala (TTS) que dependem de prompts de fala (fala de referência) para variabilidade de voz, o uso de prompts de texto (descrições) é mais amigável ao usuário, já que os prompts de fala podem ser difíceis de encontrar ou podem nem existir. As abordagens de TTS baseadas em prompts de texto enfrentam dois desafios: 1) o problema de um-para-muitos, onde nem todos os detalhes sobre a variabilidade de voz podem ser descritos no prompt de texto, e 2) a disponibilidade limitada de conjuntos de dados de prompts de texto, onde são necessários fornecedores e um alto custo de rotulagem de dados para escrever prompts de texto para fala. Neste trabalho, apresentamos o PromptTTS 2 para abordar esses desafios com uma rede de variação para fornecer informações de variabilidade de voz não capturadas pelos prompts de texto, e um pipeline de geração de prompts para utilizar modelos de linguagem de grande escala (LLM) para compor prompts de texto de alta qualidade. Especificamente, a rede de variação prevê a representação extraída da fala de referência (que contém todas as informações sobre a voz) com base na representação do prompt de texto. Para o pipeline de geração de prompts, ele gera prompts de texto para fala com um modelo de compreensão de fala para reconhecer atributos de voz (por exemplo, gênero, velocidade) a partir da fala e um modelo de linguagem de grande escala para formular o prompt de texto com base nos resultados do reconhecimento. Experimentos em um conjunto de dados de fala em larga escala (44 mil horas) demonstram que, em comparação com trabalhos anteriores, o PromptTTS 2 gera vozes mais consistentes com os prompts de texto e suporta a amostragem de diversas variabilidades de voz, oferecendo aos usuários mais opções na geração de voz. Além disso, o pipeline de geração de prompts produz prompts de alta qualidade, eliminando o alto custo de rotulagem. A página de demonstração do PromptTTS 2 está disponível online em https://speechresearch.github.io/prompttts2.
English
Speech conveys more information than just text, as the same word can be uttered in various voices to convey diverse information. Compared to traditional text-to-speech (TTS) methods relying on speech prompts (reference speech) for voice variability, using text prompts (descriptions) is more user-friendly since speech prompts can be hard to find or may not exist at all. TTS approaches based on the text prompt face two challenges: 1) the one-to-many problem, where not all details about voice variability can be described in the text prompt, and 2) the limited availability of text prompt datasets, where vendors and large cost of data labeling are required to write text prompt for speech. In this work, we introduce PromptTTS 2 to address these challenges with a variation network to provide variability information of voice not captured by text prompts, and a prompt generation pipeline to utilize the large language models (LLM) to compose high quality text prompts. Specifically, the variation network predicts the representation extracted from the reference speech (which contains full information about voice) based on the text prompt representation. For the prompt generation pipeline, it generates text prompts for speech with a speech understanding model to recognize voice attributes (e.g., gender, speed) from speech and a large language model to formulate text prompt based on the recognition results. Experiments on a large-scale (44K hours) speech dataset demonstrate that compared to the previous works, PromptTTS 2 generates voices more consistent with text prompts and supports the sampling of diverse voice variability, thereby offering users more choices on voice generation. Additionally, the prompt generation pipeline produces high-quality prompts, eliminating the large labeling cost. The demo page of PromptTTS 2 is available onlinehttps://speechresearch.github.io/prompttts2.
PDF142February 8, 2026