CLAPSpeech: Aprendendo Prosódia a partir do Contexto Textual com Pré-treinamento Contrastivo de Linguagem-Áudio
CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-training
May 18, 2023
Autores: Zhenhui Ye, Rongjie Huang, Yi Ren, Ziyue Jiang, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao
cs.AI
Resumo
A melhoria da representação de texto tem atraído muita atenção para alcançar uma síntese de fala (TTS) mais expressiva. No entanto, os trabalhos existentes aprendem apenas implicitamente a prosódia com tarefas de reconstrução de tokens mascarados, o que resulta em baixa eficiência de treinamento e dificuldade na modelagem da prosódia. Propomos o CLAPSpeech, uma estrutura de pré-treinamento contrastivo multimodal que aprende explicitamente a variação prosódica do mesmo token de texto em diferentes contextos. Especificamente, 1) Incentivamos o modelo a conectar o contexto do texto com seu padrão prosódico correspondente no espaço multimodal conjunto, com o design elaborado das entradas do codificador e da função de perda contrastiva; 2) Introduzimos um pipeline de pré-treinamento multiescala para capturar padrões prosódicos em múltiplos níveis. Mostramos como incorporar o CLAPSpeech em modelos TTS existentes para melhorar a prosódia. Experimentos em três conjuntos de dados não apenas demonstram que o CLAPSpeech pode melhorar a previsão de prosódia para métodos TTS existentes, mas também evidenciam sua capacidade de generalização para se adaptar a múltiplos idiomas e TTS com múltiplos falantes. Também analisamos profundamente o princípio por trás do desempenho do CLAPSpeech. Estudos de ablação demonstram a necessidade de cada componente em nosso método. O código-fonte e amostras de áudio estão disponíveis em https://clapspeech.github.io.
English
Improving text representation has attracted much attention to achieve
expressive text-to-speech (TTS). However, existing works only implicitly learn
the prosody with masked token reconstruction tasks, which leads to low training
efficiency and difficulty in prosody modeling. We propose CLAPSpeech, a
cross-modal contrastive pre-training framework that explicitly learns the
prosody variance of the same text token under different contexts. Specifically,
1) We encourage the model to connect the text context with its corresponding
prosody pattern in the joint multi-modal space with the elaborate design of the
encoder inputs and contrastive loss; 2) We introduce a multi-scale pre-training
pipeline to capture prosody patterns in multiple levels. We show how to
incorporate CLAPSpeech into existing TTS models for better prosody. Experiments
on three datasets not only show that CLAPSpeech could improve the prosody
prediction for existing TTS methods, but also demonstrate its generalization
ability to adapt to multiple languages and multi-speaker TTS. We also deeply
analyze the principle behind the performance of CLAPSpeech. Ablation studies
demonstrate the necessity of each component in our method. Source code and
audio samples are available at https://clapspeech.github.io.