ChatPaper.aiChatPaper

PromptTTS 2: Descrizione e generazione di voci con prompt testuali

PromptTTS 2: Describing and Generating Voices with Text Prompt

September 5, 2023
Autori: Yichong Leng, Zhifang Guo, Kai Shen, Xu Tan, Zeqian Ju, Yanqing Liu, Yufei Liu, Dongchao Yang, Leying Zhang, Kaitao Song, Lei He, Xiang-Yang Li, Sheng Zhao, Tao Qin, Jiang Bian
cs.AI

Abstract

Il parlato trasmette più informazioni rispetto al semplice testo, poiché la stessa parola può essere pronunciata con diverse voci per comunicare informazioni variegate. Rispetto ai tradizionali metodi di sintesi vocale (TTS) che si basano su prompt vocali (discorso di riferimento) per la variabilità della voce, l'uso di prompt testuali (descrizioni) è più user-friendly, dato che i prompt vocali possono essere difficili da trovare o potrebbero non esistere affatto. Gli approcci TTS basati su prompt testuali affrontano due sfide principali: 1) il problema uno-a-molti, in cui non tutti i dettagli sulla variabilità della voce possono essere descritti nel prompt testuale, e 2) la disponibilità limitata di dataset di prompt testuali, che richiedono fornitori e un costo elevato per l'etichettatura dei dati per scrivere prompt testuali per il parlato. In questo lavoro, introduciamo PromptTTS 2 per affrontare queste sfide con una rete di variazione che fornisce informazioni sulla variabilità della voce non catturate dai prompt testuali, e una pipeline di generazione dei prompt che utilizza modelli linguistici di grandi dimensioni (LLM) per comporre prompt testuali di alta qualità. Nello specifico, la rete di variazione predice la rappresentazione estratta dal discorso di riferimento (che contiene informazioni complete sulla voce) basandosi sulla rappresentazione del prompt testuale. Per quanto riguarda la pipeline di generazione dei prompt, essa genera prompt testuali per il parlato utilizzando un modello di comprensione del parlato per riconoscere attributi vocali (ad esempio, genere, velocità) dal discorso e un modello linguistico di grandi dimensioni per formulare il prompt testuale basandosi sui risultati del riconoscimento. Esperimenti condotti su un dataset di parlato su larga scala (44K ore) dimostrano che, rispetto ai lavori precedenti, PromptTTS 2 genera voci più coerenti con i prompt testuali e supporta il campionamento di una varietà di voci, offrendo agli utenti più scelte nella generazione vocale. Inoltre, la pipeline di generazione dei prompt produce prompt di alta qualità, eliminando i costi elevati di etichettatura. La pagina demo di PromptTTS 2 è disponibile online all'indirizzo https://speechresearch.github.io/prompttts2.
English
Speech conveys more information than just text, as the same word can be uttered in various voices to convey diverse information. Compared to traditional text-to-speech (TTS) methods relying on speech prompts (reference speech) for voice variability, using text prompts (descriptions) is more user-friendly since speech prompts can be hard to find or may not exist at all. TTS approaches based on the text prompt face two challenges: 1) the one-to-many problem, where not all details about voice variability can be described in the text prompt, and 2) the limited availability of text prompt datasets, where vendors and large cost of data labeling are required to write text prompt for speech. In this work, we introduce PromptTTS 2 to address these challenges with a variation network to provide variability information of voice not captured by text prompts, and a prompt generation pipeline to utilize the large language models (LLM) to compose high quality text prompts. Specifically, the variation network predicts the representation extracted from the reference speech (which contains full information about voice) based on the text prompt representation. For the prompt generation pipeline, it generates text prompts for speech with a speech understanding model to recognize voice attributes (e.g., gender, speed) from speech and a large language model to formulate text prompt based on the recognition results. Experiments on a large-scale (44K hours) speech dataset demonstrate that compared to the previous works, PromptTTS 2 generates voices more consistent with text prompts and supports the sampling of diverse voice variability, thereby offering users more choices on voice generation. Additionally, the prompt generation pipeline produces high-quality prompts, eliminating the large labeling cost. The demo page of PromptTTS 2 is available onlinehttps://speechresearch.github.io/prompttts2.
PDF142February 8, 2026