PromptTTS 2: Stemmen Beschrijven en Genereren met Tekstprompts
PromptTTS 2: Describing and Generating Voices with Text Prompt
September 5, 2023
Auteurs: Yichong Leng, Zhifang Guo, Kai Shen, Xu Tan, Zeqian Ju, Yanqing Liu, Yufei Liu, Dongchao Yang, Leying Zhang, Kaitao Song, Lei He, Xiang-Yang Li, Sheng Zhao, Tao Qin, Jiang Bian
cs.AI
Samenvatting
Spraak brengt meer informatie over dan alleen tekst, aangezien hetzelfde woord op verschillende manieren uitgesproken kan worden om diverse informatie over te brengen. In vergelijking met traditionele tekst-naar-spraak (TTS) methoden die afhankelijk zijn van spraakprompts (referentiespraak) voor stemvariabiliteit, is het gebruik van tekstprompts (beschrijvingen) gebruiksvriendelijker, omdat spraakprompts moeilijk te vinden kunnen zijn of zelfs helemaal niet bestaan. TTS-benaderingen op basis van tekstprompts worden geconfronteerd met twee uitdagingen: 1) het één-op-veel-probleem, waarbij niet alle details over stemvariabiliteit in de tekstprompt kunnen worden beschreven, en 2) de beperkte beschikbaarheid van tekstprompt-datasets, waarbij leveranciers en hoge kosten voor datalabeling nodig zijn om tekstprompts voor spraak te schrijven. In dit werk introduceren we PromptTTS 2 om deze uitdagingen aan te pakken met een variatienetwerk om variabiliteitsinformatie van de stem te bieden die niet door tekstprompts wordt vastgelegd, en een promptgeneratiepijplijn om grote taalmodelen (LLM) te gebruiken om hoogwaardige tekstprompts samen te stellen. Specifiek voorspelt het variatienetwerk de representatie die uit de referentiespraak is geëxtraheerd (die volledige informatie over de stem bevat) op basis van de tekstpromptrepresentatie. Voor de promptgeneratiepijplijn genereert het tekstprompts voor spraak met een spraakbegripmodel om stemattributen (bijv. geslacht, snelheid) uit spraak te herkennen en een groot taalmodel om tekstprompts te formuleren op basis van de herkenningsresultaten. Experimenten op een grootschalige (44K uur) spraakdataset tonen aan dat PromptTTS 2, in vergelijking met eerdere werken, stemmen genereert die meer consistent zijn met tekstprompts en het bemonsteren van diverse stemvariabiliteit ondersteunt, waardoor gebruikers meer keuzes hebben bij stemgeneratie. Bovendien produceert de promptgeneratiepijplijn hoogwaardige prompts, waardoor de hoge labelkosten worden geëlimineerd. De demopagina van PromptTTS 2 is online beschikbaar op https://speechresearch.github.io/prompttts2.
English
Speech conveys more information than just text, as the same word can be
uttered in various voices to convey diverse information. Compared to
traditional text-to-speech (TTS) methods relying on speech prompts (reference
speech) for voice variability, using text prompts (descriptions) is more
user-friendly since speech prompts can be hard to find or may not exist at all.
TTS approaches based on the text prompt face two challenges: 1) the one-to-many
problem, where not all details about voice variability can be described in the
text prompt, and 2) the limited availability of text prompt datasets, where
vendors and large cost of data labeling are required to write text prompt for
speech. In this work, we introduce PromptTTS 2 to address these challenges with
a variation network to provide variability information of voice not captured by
text prompts, and a prompt generation pipeline to utilize the large language
models (LLM) to compose high quality text prompts. Specifically, the variation
network predicts the representation extracted from the reference speech (which
contains full information about voice) based on the text prompt representation.
For the prompt generation pipeline, it generates text prompts for speech with a
speech understanding model to recognize voice attributes (e.g., gender, speed)
from speech and a large language model to formulate text prompt based on the
recognition results. Experiments on a large-scale (44K hours) speech dataset
demonstrate that compared to the previous works, PromptTTS 2 generates voices
more consistent with text prompts and supports the sampling of diverse voice
variability, thereby offering users more choices on voice generation.
Additionally, the prompt generation pipeline produces high-quality prompts,
eliminating the large labeling cost. The demo page of PromptTTS 2 is available
onlinehttps://speechresearch.github.io/prompttts2.