ChatPaper.aiChatPaper

PromptTTS 2: Descripción y Generación de Voces mediante Indicaciones de Texto

PromptTTS 2: Describing and Generating Voices with Text Prompt

September 5, 2023
Autores: Yichong Leng, Zhifang Guo, Kai Shen, Xu Tan, Zeqian Ju, Yanqing Liu, Yufei Liu, Dongchao Yang, Leying Zhang, Kaitao Song, Lei He, Xiang-Yang Li, Sheng Zhao, Tao Qin, Jiang Bian
cs.AI

Resumen

El habla transmite más información que solo el texto, ya que una misma palabra puede pronunciarse con diferentes voces para expresar información diversa. En comparación con los métodos tradicionales de conversión de texto a voz (TTS) que dependen de indicaciones de voz (voz de referencia) para la variabilidad vocal, el uso de indicaciones de texto (descripciones) es más amigable para el usuario, ya que las indicaciones de voz pueden ser difíciles de encontrar o incluso no existir. Los enfoques de TTS basados en indicaciones de texto enfrentan dos desafíos: 1) el problema de uno a muchos, donde no todos los detalles sobre la variabilidad vocal pueden describirse en la indicación de texto, y 2) la disponibilidad limitada de conjuntos de datos de indicaciones de texto, que requieren proveedores y un alto costo de etiquetado de datos para redactar indicaciones de texto para el habla. En este trabajo, presentamos PromptTTS 2 para abordar estos desafíos con una red de variación que proporciona información sobre la variabilidad vocal no capturada por las indicaciones de texto, y una canalización de generación de indicaciones que utiliza modelos de lenguaje grandes (LLM) para componer indicaciones de texto de alta calidad. Específicamente, la red de variación predice la representación extraída de la voz de referencia (que contiene toda la información sobre la voz) basándose en la representación de la indicación de texto. Para la canalización de generación de indicaciones, esta genera indicaciones de texto para el habla con un modelo de comprensión del habla que reconoce atributos vocales (por ejemplo, género, velocidad) a partir del habla y un modelo de lenguaje grande que formula la indicación de texto basándose en los resultados del reconocimiento. Los experimentos en un conjunto de datos de habla a gran escala (44K horas) demuestran que, en comparación con trabajos anteriores, PromptTTS 2 genera voces más consistentes con las indicaciones de texto y permite el muestreo de una diversa variabilidad vocal, ofreciendo así a los usuarios más opciones en la generación de voces. Además, la canalización de generación de indicaciones produce indicaciones de alta calidad, eliminando el alto costo de etiquetado. La página de demostración de PromptTTS 2 está disponible en línea en https://speechresearch.github.io/prompttts2.
English
Speech conveys more information than just text, as the same word can be uttered in various voices to convey diverse information. Compared to traditional text-to-speech (TTS) methods relying on speech prompts (reference speech) for voice variability, using text prompts (descriptions) is more user-friendly since speech prompts can be hard to find or may not exist at all. TTS approaches based on the text prompt face two challenges: 1) the one-to-many problem, where not all details about voice variability can be described in the text prompt, and 2) the limited availability of text prompt datasets, where vendors and large cost of data labeling are required to write text prompt for speech. In this work, we introduce PromptTTS 2 to address these challenges with a variation network to provide variability information of voice not captured by text prompts, and a prompt generation pipeline to utilize the large language models (LLM) to compose high quality text prompts. Specifically, the variation network predicts the representation extracted from the reference speech (which contains full information about voice) based on the text prompt representation. For the prompt generation pipeline, it generates text prompts for speech with a speech understanding model to recognize voice attributes (e.g., gender, speed) from speech and a large language model to formulate text prompt based on the recognition results. Experiments on a large-scale (44K hours) speech dataset demonstrate that compared to the previous works, PromptTTS 2 generates voices more consistent with text prompts and supports the sampling of diverse voice variability, thereby offering users more choices on voice generation. Additionally, the prompt generation pipeline produces high-quality prompts, eliminating the large labeling cost. The demo page of PromptTTS 2 is available onlinehttps://speechresearch.github.io/prompttts2.
PDF132December 15, 2024