CLAPSpeech: Erlernen der Prosodie aus dem Textkontext mit kontrastivem Sprach-Audio-Pre-Training
CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-training
May 18, 2023
Autoren: Zhenhui Ye, Rongjie Huang, Yi Ren, Ziyue Jiang, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao
cs.AI
Zusammenfassung
Die Verbesserung der Textrepräsentation hat viel Aufmerksamkeit erregt, um eine ausdrucksstarke Text-zu-Sprache (TTS)-Synthese zu erreichen. Bisherige Ansätze lernen die Prosodie jedoch nur implizit durch Aufgaben zur Rekonstruktion maskierter Tokens, was zu einer geringen Trainingseffizienz und Schwierigkeiten bei der Prosodiemodellierung führt. Wir schlagen CLAPSpeech vor, ein cross-modales kontrastives Pre-Training-Framework, das explizit die Prosodievariation desselben Texttokens in verschiedenen Kontexten lernt. Konkret: 1) Wir fördern, dass das Modell den Textkontext mit dem entsprechenden Prosodiemuster im gemeinsamen multimodalen Raum verbindet, durch eine sorgfältige Gestaltung der Encoder-Eingaben und des kontrastiven Verlusts; 2) Wir führen eine mehrstufige Pre-Training-Pipeline ein, um Prosodiemuster auf mehreren Ebenen zu erfassen. Wir zeigen, wie CLAPSpeech in bestehende TTS-Modelle integriert werden kann, um die Prosodie zu verbessern. Experimente mit drei Datensätzen zeigen nicht nur, dass CLAPSpeech die Prosodievorhersage für bestehende TTS-Methoden verbessern kann, sondern demonstrieren auch seine Generalisierungsfähigkeit, sich an mehrere Sprachen und Mehrsprecher-TTS anzupassen. Wir analysieren zudem die Prinzipien hinter der Leistung von CLAPSpeech. Ablationsstudien belegen die Notwendigkeit jeder Komponente unserer Methode. Der Quellcode und Audiobeispiele sind unter https://clapspeech.github.io verfügbar.
English
Improving text representation has attracted much attention to achieve
expressive text-to-speech (TTS). However, existing works only implicitly learn
the prosody with masked token reconstruction tasks, which leads to low training
efficiency and difficulty in prosody modeling. We propose CLAPSpeech, a
cross-modal contrastive pre-training framework that explicitly learns the
prosody variance of the same text token under different contexts. Specifically,
1) We encourage the model to connect the text context with its corresponding
prosody pattern in the joint multi-modal space with the elaborate design of the
encoder inputs and contrastive loss; 2) We introduce a multi-scale pre-training
pipeline to capture prosody patterns in multiple levels. We show how to
incorporate CLAPSpeech into existing TTS models for better prosody. Experiments
on three datasets not only show that CLAPSpeech could improve the prosody
prediction for existing TTS methods, but also demonstrate its generalization
ability to adapt to multiple languages and multi-speaker TTS. We also deeply
analyze the principle behind the performance of CLAPSpeech. Ablation studies
demonstrate the necessity of each component in our method. Source code and
audio samples are available at https://clapspeech.github.io.