CLAPSpeech: Apprendimento della Prosodia dal Contesto Testuale con Pre-addestramento Contrastivo Linguaggio-Audio

Abstract

Migliorare la rappresentazione del testo ha attirato molta attenzione per ottenere una sintesi vocale (TTS) più espressiva. Tuttavia, i lavori esistenti apprendono solo implicitamente la prosodia attraverso compiti di ricostruzione di token mascherati, il che porta a una bassa efficienza di addestramento e difficoltà nella modellazione della prosodia. Proponiamo CLAPSpeech, un framework di pre-addestramento contrastivo cross-modale che apprende esplicitamente la variazione prosodica dello stesso token testuale in contesti diversi. Nello specifico, 1) incoraggiamo il modello a collegare il contesto testuale con il corrispondente schema prosodico nello spazio multimodale congiunto, attraverso un design accurato degli input dell'encoder e della funzione di perdita contrastiva; 2) introduciamo una pipeline di pre-addestramento multi-scala per catturare gli schemi prosodici a più livelli. Mostriamo come integrare CLAPSpeech nei modelli TTS esistenti per ottenere una migliore prosodia. Gli esperimenti su tre dataset non solo dimostrano che CLAPSpeech può migliorare la previsione della prosodia per i metodi TTS esistenti, ma evidenziano anche la sua capacità di generalizzazione per adattarsi a più lingue e a TTS multi-speaker. Analizziamo inoltre in profondità il principio alla base delle prestazioni di CLAPSpeech. Studi di ablazione dimostrano la necessità di ciascun componente del nostro metodo. Il codice sorgente e campioni audio sono disponibili su https://clapspeech.github.io.

English

Improving text representation has attracted much attention to achieve expressive text-to-speech (TTS). However, existing works only implicitly learn the prosody with masked token reconstruction tasks, which leads to low training efficiency and difficulty in prosody modeling. We propose CLAPSpeech, a cross-modal contrastive pre-training framework that explicitly learns the prosody variance of the same text token under different contexts. Specifically, 1) We encourage the model to connect the text context with its corresponding prosody pattern in the joint multi-modal space with the elaborate design of the encoder inputs and contrastive loss; 2) We introduce a multi-scale pre-training pipeline to capture prosody patterns in multiple levels. We show how to incorporate CLAPSpeech into existing TTS models for better prosody. Experiments on three datasets not only show that CLAPSpeech could improve the prosody prediction for existing TTS methods, but also demonstrate its generalization ability to adapt to multiple languages and multi-speaker TTS. We also deeply analyze the principle behind the performance of CLAPSpeech. Ablation studies demonstrate the necessity of each component in our method. Source code and audio samples are available at https://clapspeech.github.io.

CLAPSpeech: Apprendimento della Prosodia dal Contesto Testuale con Pre-addestramento Contrastivo Linguaggio-Audio

CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-training

Abstract

Support