CLAPSpeech : Apprentissage de la prosodie à partir du contexte textuel grâce à un pré-entraînement contrastif langue-audio
CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-training
May 18, 2023
Auteurs: Zhenhui Ye, Rongjie Huang, Yi Ren, Ziyue Jiang, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao
cs.AI
Résumé
L'amélioration de la représentation textuelle a suscité un intérêt considérable pour parvenir à une synthèse vocale (TTS) expressive. Cependant, les travaux existants n'apprennent la prosodie que de manière implicite à travers des tâches de reconstruction de tokens masqués, ce qui entraîne une faible efficacité d'entraînement et des difficultés dans la modélisation de la prosodie. Nous proposons CLAPSpeech, un cadre de pré-entraînement contrastif multimodal qui apprend explicitement la variance prosodique d'un même token textuel dans différents contextes. Plus précisément, 1) Nous encourageons le modèle à associer le contexte textuel à son motif prosodique correspondant dans l'espace multimodal conjoint grâce à une conception minutieuse des entrées de l'encodeur et de la fonction de perte contrastive ; 2) Nous introduisons un pipeline de pré-entraînement multi-échelle pour capturer les motifs prosodiques à plusieurs niveaux. Nous montrons comment intégrer CLAPSpeech dans les modèles TTS existants pour une meilleure prosodie. Les expériences sur trois ensembles de données montrent non seulement que CLAPSpeech peut améliorer la prédiction de la prosodie pour les méthodes TTS existantes, mais démontrent également sa capacité de généralisation pour s'adapter à plusieurs langues et à la synthèse vocale multi-locuteurs. Nous analysons également en profondeur le principe sous-jacent à la performance de CLAPSpeech. Les études d'ablation démontrent la nécessité de chaque composant de notre méthode. Le code source et des échantillons audio sont disponibles à l'adresse https://clapspeech.github.io.
English
Improving text representation has attracted much attention to achieve
expressive text-to-speech (TTS). However, existing works only implicitly learn
the prosody with masked token reconstruction tasks, which leads to low training
efficiency and difficulty in prosody modeling. We propose CLAPSpeech, a
cross-modal contrastive pre-training framework that explicitly learns the
prosody variance of the same text token under different contexts. Specifically,
1) We encourage the model to connect the text context with its corresponding
prosody pattern in the joint multi-modal space with the elaborate design of the
encoder inputs and contrastive loss; 2) We introduce a multi-scale pre-training
pipeline to capture prosody patterns in multiple levels. We show how to
incorporate CLAPSpeech into existing TTS models for better prosody. Experiments
on three datasets not only show that CLAPSpeech could improve the prosody
prediction for existing TTS methods, but also demonstrate its generalization
ability to adapt to multiple languages and multi-speaker TTS. We also deeply
analyze the principle behind the performance of CLAPSpeech. Ablation studies
demonstrate the necessity of each component in our method. Source code and
audio samples are available at https://clapspeech.github.io.