CLAPSpeech: Aprendendo Prosódia a partir do Contexto Textual com Pré-treinamento Contrastivo de Linguagem-Áudio

Resumo

A melhoria da representação de texto tem atraído muita atenção para alcançar uma síntese de fala (TTS) mais expressiva. No entanto, os trabalhos existentes aprendem apenas implicitamente a prosódia com tarefas de reconstrução de tokens mascarados, o que resulta em baixa eficiência de treinamento e dificuldade na modelagem da prosódia. Propomos o CLAPSpeech, uma estrutura de pré-treinamento contrastivo multimodal que aprende explicitamente a variação prosódica do mesmo token de texto em diferentes contextos. Especificamente, 1) Incentivamos o modelo a conectar o contexto do texto com seu padrão prosódico correspondente no espaço multimodal conjunto, com o design elaborado das entradas do codificador e da função de perda contrastiva; 2) Introduzimos um pipeline de pré-treinamento multiescala para capturar padrões prosódicos em múltiplos níveis. Mostramos como incorporar o CLAPSpeech em modelos TTS existentes para melhorar a prosódia. Experimentos em três conjuntos de dados não apenas demonstram que o CLAPSpeech pode melhorar a previsão de prosódia para métodos TTS existentes, mas também evidenciam sua capacidade de generalização para se adaptar a múltiplos idiomas e TTS com múltiplos falantes. Também analisamos profundamente o princípio por trás do desempenho do CLAPSpeech. Estudos de ablação demonstram a necessidade de cada componente em nosso método. O código-fonte e amostras de áudio estão disponíveis em https://clapspeech.github.io.

English

Improving text representation has attracted much attention to achieve expressive text-to-speech (TTS). However, existing works only implicitly learn the prosody with masked token reconstruction tasks, which leads to low training efficiency and difficulty in prosody modeling. We propose CLAPSpeech, a cross-modal contrastive pre-training framework that explicitly learns the prosody variance of the same text token under different contexts. Specifically, 1) We encourage the model to connect the text context with its corresponding prosody pattern in the joint multi-modal space with the elaborate design of the encoder inputs and contrastive loss; 2) We introduce a multi-scale pre-training pipeline to capture prosody patterns in multiple levels. We show how to incorporate CLAPSpeech into existing TTS models for better prosody. Experiments on three datasets not only show that CLAPSpeech could improve the prosody prediction for existing TTS methods, but also demonstrate its generalization ability to adapt to multiple languages and multi-speaker TTS. We also deeply analyze the principle behind the performance of CLAPSpeech. Ablation studies demonstrate the necessity of each component in our method. Source code and audio samples are available at https://clapspeech.github.io.

CLAPSpeech: Aprendendo Prosódia a partir do Contexto Textual com Pré-treinamento Contrastivo de Linguagem-Áudio

CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-training

Resumo

Support