CLAPSpeech: Apprendimento della Prosodia dal Contesto Testuale con Pre-addestramento Contrastivo Linguaggio-Audio
CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-training
May 18, 2023
Autori: Zhenhui Ye, Rongjie Huang, Yi Ren, Ziyue Jiang, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao
cs.AI
Abstract
Migliorare la rappresentazione del testo ha attirato molta attenzione per ottenere una sintesi vocale (TTS) più espressiva. Tuttavia, i lavori esistenti apprendono solo implicitamente la prosodia attraverso compiti di ricostruzione di token mascherati, il che porta a una bassa efficienza di addestramento e difficoltà nella modellazione della prosodia. Proponiamo CLAPSpeech, un framework di pre-addestramento contrastivo cross-modale che apprende esplicitamente la variazione prosodica dello stesso token testuale in contesti diversi. Nello specifico, 1) incoraggiamo il modello a collegare il contesto testuale con il corrispondente schema prosodico nello spazio multimodale congiunto, attraverso un design accurato degli input dell'encoder e della funzione di perdita contrastiva; 2) introduciamo una pipeline di pre-addestramento multi-scala per catturare gli schemi prosodici a più livelli. Mostriamo come integrare CLAPSpeech nei modelli TTS esistenti per ottenere una migliore prosodia. Gli esperimenti su tre dataset non solo dimostrano che CLAPSpeech può migliorare la previsione della prosodia per i metodi TTS esistenti, ma evidenziano anche la sua capacità di generalizzazione per adattarsi a più lingue e a TTS multi-speaker. Analizziamo inoltre in profondità il principio alla base delle prestazioni di CLAPSpeech. Studi di ablazione dimostrano la necessità di ciascun componente del nostro metodo. Il codice sorgente e campioni audio sono disponibili su https://clapspeech.github.io.
English
Improving text representation has attracted much attention to achieve
expressive text-to-speech (TTS). However, existing works only implicitly learn
the prosody with masked token reconstruction tasks, which leads to low training
efficiency and difficulty in prosody modeling. We propose CLAPSpeech, a
cross-modal contrastive pre-training framework that explicitly learns the
prosody variance of the same text token under different contexts. Specifically,
1) We encourage the model to connect the text context with its corresponding
prosody pattern in the joint multi-modal space with the elaborate design of the
encoder inputs and contrastive loss; 2) We introduce a multi-scale pre-training
pipeline to capture prosody patterns in multiple levels. We show how to
incorporate CLAPSpeech into existing TTS models for better prosody. Experiments
on three datasets not only show that CLAPSpeech could improve the prosody
prediction for existing TTS methods, but also demonstrate its generalization
ability to adapt to multiple languages and multi-speaker TTS. We also deeply
analyze the principle behind the performance of CLAPSpeech. Ablation studies
demonstrate the necessity of each component in our method. Source code and
audio samples are available at https://clapspeech.github.io.