CLAPSpeech: Aprendizaje de la Prosodia a partir del Contexto Textual con Preentrenamiento Contrastivo de Lenguaje-Audio

Resumen

Mejorar la representación del texto ha atraído mucha atención para lograr una síntesis de voz (TTS) más expresiva. Sin embargo, los trabajos existentes solo aprenden implícitamente la prosodia mediante tareas de reconstrucción de tokens enmascarados, lo que conduce a una baja eficiencia en el entrenamiento y dificultades en el modelado de la prosodia. Proponemos CLAPSpeech, un marco de pre-entrenamiento contrastivo multimodal que aprende explícitamente la variación prosódica del mismo token de texto en diferentes contextos. Específicamente, 1) Fomentamos que el modelo conecte el contexto del texto con su patrón prosódico correspondiente en el espacio multimodal conjunto mediante un diseño elaborado de las entradas del codificador y la función de pérdida contrastiva; 2) Introducimos una canalización de pre-entrenamiento multiescala para capturar patrones prosódicos en múltiples niveles. Mostramos cómo incorporar CLAPSpeech en los modelos TTS existentes para mejorar la prosodia. Los experimentos en tres conjuntos de datos no solo demuestran que CLAPSpeech puede mejorar la predicción de la prosodia en los métodos TTS existentes, sino que también evidencian su capacidad de generalización para adaptarse a múltiples idiomas y TTS multi-hablante. También analizamos en profundidad el principio detrás del rendimiento de CLAPSpeech. Los estudios de ablación demuestran la necesidad de cada componente en nuestro método. El código fuente y muestras de audio están disponibles en https://clapspeech.github.io.

English

Improving text representation has attracted much attention to achieve expressive text-to-speech (TTS). However, existing works only implicitly learn the prosody with masked token reconstruction tasks, which leads to low training efficiency and difficulty in prosody modeling. We propose CLAPSpeech, a cross-modal contrastive pre-training framework that explicitly learns the prosody variance of the same text token under different contexts. Specifically, 1) We encourage the model to connect the text context with its corresponding prosody pattern in the joint multi-modal space with the elaborate design of the encoder inputs and contrastive loss; 2) We introduce a multi-scale pre-training pipeline to capture prosody patterns in multiple levels. We show how to incorporate CLAPSpeech into existing TTS models for better prosody. Experiments on three datasets not only show that CLAPSpeech could improve the prosody prediction for existing TTS methods, but also demonstrate its generalization ability to adapt to multiple languages and multi-speaker TTS. We also deeply analyze the principle behind the performance of CLAPSpeech. Ablation studies demonstrate the necessity of each component in our method. Source code and audio samples are available at https://clapspeech.github.io.

CLAPSpeech: Aprendizaje de la Prosodia a partir del Contexto Textual con Preentrenamiento Contrastivo de Lenguaje-Audio

CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-training

Resumen

Support