PromptTTS 2: Описание и генерация голосов с помощью текстовых подсказок
PromptTTS 2: Describing and Generating Voices with Text Prompt
September 5, 2023
Авторы: Yichong Leng, Zhifang Guo, Kai Shen, Xu Tan, Zeqian Ju, Yanqing Liu, Yufei Liu, Dongchao Yang, Leying Zhang, Kaitao Song, Lei He, Xiang-Yang Li, Sheng Zhao, Tao Qin, Jiang Bian
cs.AI
Аннотация
Речь передает больше информации, чем просто текст, так как одно и то же слово может быть произнесено разными голосами для передачи различной информации. По сравнению с традиционными методами преобразования текста в речь (TTS), которые полагаются на речевые подсказки (референсная речь) для вариативности голоса, использование текстовых подсказок (описаний) более удобно для пользователя, поскольку речевые подсказки могут быть труднодоступны или вовсе отсутствовать. TTS-подходы, основанные на текстовых подсказках, сталкиваются с двумя проблемами: 1) проблема "один ко многим", когда не все детали о вариативности голоса могут быть описаны в текстовой подсказке, и 2) ограниченная доступность наборов данных с текстовыми подсказками, где требуются поставщики и высокие затраты на разметку данных для создания текстовых подсказок для речи. В данной работе мы представляем PromptTTS 2, чтобы решить эти проблемы с помощью вариационной сети, которая предоставляет информацию о вариативности голоса, не охваченную текстовыми подсказками, и конвейера генерации подсказок, который использует большие языковые модели (LLM) для создания высококачественных текстовых подсказок. В частности, вариационная сеть предсказывает представление, извлеченное из референсной речи (которая содержит полную информацию о голосе), на основе представления текстовой подсказки. Что касается конвейера генерации подсказок, он создает текстовые подсказки для речи с помощью модели понимания речи для распознавания атрибутов голоса (например, пол, скорость) из речи и большой языковой модели для формулирования текстовой подсказки на основе результатов распознавания. Эксперименты на крупномасштабном наборе данных (44 тыс. часов) демонстрируют, что по сравнению с предыдущими работами PromptTTS 2 генерирует голоса, более соответствующие текстовым подсказкам, и поддерживает выборку разнообразной вариативности голоса, тем самым предоставляя пользователям больше возможностей для генерации голоса. Кроме того, конвейер генерации подсказок создает высококачественные подсказки, устраняя высокие затраты на разметку. Демонстрационная страница PromptTTS 2 доступна онлайн: https://speechresearch.github.io/prompttts2.
English
Speech conveys more information than just text, as the same word can be
uttered in various voices to convey diverse information. Compared to
traditional text-to-speech (TTS) methods relying on speech prompts (reference
speech) for voice variability, using text prompts (descriptions) is more
user-friendly since speech prompts can be hard to find or may not exist at all.
TTS approaches based on the text prompt face two challenges: 1) the one-to-many
problem, where not all details about voice variability can be described in the
text prompt, and 2) the limited availability of text prompt datasets, where
vendors and large cost of data labeling are required to write text prompt for
speech. In this work, we introduce PromptTTS 2 to address these challenges with
a variation network to provide variability information of voice not captured by
text prompts, and a prompt generation pipeline to utilize the large language
models (LLM) to compose high quality text prompts. Specifically, the variation
network predicts the representation extracted from the reference speech (which
contains full information about voice) based on the text prompt representation.
For the prompt generation pipeline, it generates text prompts for speech with a
speech understanding model to recognize voice attributes (e.g., gender, speed)
from speech and a large language model to formulate text prompt based on the
recognition results. Experiments on a large-scale (44K hours) speech dataset
demonstrate that compared to the previous works, PromptTTS 2 generates voices
more consistent with text prompts and supports the sampling of diverse voice
variability, thereby offering users more choices on voice generation.
Additionally, the prompt generation pipeline produces high-quality prompts,
eliminating the large labeling cost. The demo page of PromptTTS 2 is available
onlinehttps://speechresearch.github.io/prompttts2.