CLAPSpeech: Prosodie leren uit tekstcontext met contrastief taal-audio vooraf trainen
CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-training
May 18, 2023
Auteurs: Zhenhui Ye, Rongjie Huang, Yi Ren, Ziyue Jiang, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao
cs.AI
Samenvatting
Het verbeteren van tekstrepresentatie heeft veel aandacht getrokken om expressieve tekst-naar-spraak (TTS) te bereiken. Bestaande werken leren echter alleen impliciet de prosodie aan met taken voor het reconstrueren van gemaskeerde tokens, wat leidt tot lage trainings efficiëntie en moeilijkheden bij het modelleren van prosodie. Wij stellen CLAPSpeech voor, een cross-modale contrastieve voorafgaande trainingsframework dat expliciet de prosodievariantie van hetzelfde teksttoken onder verschillende contexten leert. Specifiek: 1) We moedigen het model aan om de tekstcontext te verbinden met het bijbehorende prosodiepatroon in de gezamenlijke multimodale ruimte met een uitgekiend ontwerp van de encoder-inputs en contrastief verlies; 2) We introduceren een multi-schaal voorafgaande trainingspijplijn om prosodiepatronen op meerdere niveaus vast te leggen. We laten zien hoe CLAPSpeech kan worden geïntegreerd in bestaande TTS-modellen voor betere prosodie. Experimenten op drie datasets tonen niet alleen aan dat CLAPSpeech de prosodievoorspelling voor bestaande TTS-methoden kan verbeteren, maar ook de generalisatiecapaciteit aantoont om zich aan te passen aan meerdere talen en multi-speaker TTS. We analyseren ook diepgaand het principe achter de prestaties van CLAPSpeech. Ablatiestudies tonen de noodzaak van elke component in onze methode aan. Broncode en audiovoorbeelden zijn beschikbaar op https://clapspeech.github.io.
English
Improving text representation has attracted much attention to achieve
expressive text-to-speech (TTS). However, existing works only implicitly learn
the prosody with masked token reconstruction tasks, which leads to low training
efficiency and difficulty in prosody modeling. We propose CLAPSpeech, a
cross-modal contrastive pre-training framework that explicitly learns the
prosody variance of the same text token under different contexts. Specifically,
1) We encourage the model to connect the text context with its corresponding
prosody pattern in the joint multi-modal space with the elaborate design of the
encoder inputs and contrastive loss; 2) We introduce a multi-scale pre-training
pipeline to capture prosody patterns in multiple levels. We show how to
incorporate CLAPSpeech into existing TTS models for better prosody. Experiments
on three datasets not only show that CLAPSpeech could improve the prosody
prediction for existing TTS methods, but also demonstrate its generalization
ability to adapt to multiple languages and multi-speaker TTS. We also deeply
analyze the principle behind the performance of CLAPSpeech. Ablation studies
demonstrate the necessity of each component in our method. Source code and
audio samples are available at https://clapspeech.github.io.