CLAPSpeech: Aprendizaje de la Prosodia a partir del Contexto Textual con Preentrenamiento Contrastivo de Lenguaje-Audio
CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-training
May 18, 2023
Autores: Zhenhui Ye, Rongjie Huang, Yi Ren, Ziyue Jiang, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao
cs.AI
Resumen
Mejorar la representación del texto ha atraído mucha atención para lograr una síntesis de voz (TTS) más expresiva. Sin embargo, los trabajos existentes solo aprenden implícitamente la prosodia mediante tareas de reconstrucción de tokens enmascarados, lo que conduce a una baja eficiencia en el entrenamiento y dificultades en el modelado de la prosodia. Proponemos CLAPSpeech, un marco de pre-entrenamiento contrastivo multimodal que aprende explícitamente la variación prosódica del mismo token de texto en diferentes contextos. Específicamente, 1) Fomentamos que el modelo conecte el contexto del texto con su patrón prosódico correspondiente en el espacio multimodal conjunto mediante un diseño elaborado de las entradas del codificador y la función de pérdida contrastiva; 2) Introducimos una canalización de pre-entrenamiento multiescala para capturar patrones prosódicos en múltiples niveles. Mostramos cómo incorporar CLAPSpeech en los modelos TTS existentes para mejorar la prosodia. Los experimentos en tres conjuntos de datos no solo demuestran que CLAPSpeech puede mejorar la predicción de la prosodia en los métodos TTS existentes, sino que también evidencian su capacidad de generalización para adaptarse a múltiples idiomas y TTS multi-hablante. También analizamos en profundidad el principio detrás del rendimiento de CLAPSpeech. Los estudios de ablación demuestran la necesidad de cada componente en nuestro método. El código fuente y muestras de audio están disponibles en https://clapspeech.github.io.
English
Improving text representation has attracted much attention to achieve
expressive text-to-speech (TTS). However, existing works only implicitly learn
the prosody with masked token reconstruction tasks, which leads to low training
efficiency and difficulty in prosody modeling. We propose CLAPSpeech, a
cross-modal contrastive pre-training framework that explicitly learns the
prosody variance of the same text token under different contexts. Specifically,
1) We encourage the model to connect the text context with its corresponding
prosody pattern in the joint multi-modal space with the elaborate design of the
encoder inputs and contrastive loss; 2) We introduce a multi-scale pre-training
pipeline to capture prosody patterns in multiple levels. We show how to
incorporate CLAPSpeech into existing TTS models for better prosody. Experiments
on three datasets not only show that CLAPSpeech could improve the prosody
prediction for existing TTS methods, but also demonstrate its generalization
ability to adapt to multiple languages and multi-speaker TTS. We also deeply
analyze the principle behind the performance of CLAPSpeech. Ablation studies
demonstrate the necessity of each component in our method. Source code and
audio samples are available at https://clapspeech.github.io.