CLAPSpeech: Обучение просодии на основе текстового контекста с контрастным предобучением на языково-аудиальных данных
CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-training
May 18, 2023
Авторы: Zhenhui Ye, Rongjie Huang, Yi Ren, Ziyue Jiang, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao
cs.AI
Аннотация
Улучшение представления текста привлекает значительное внимание для достижения выразительного синтеза речи (TTS). Однако существующие работы лишь неявно изучают просодию с помощью задач восстановления замаскированных токенов, что приводит к низкой эффективности обучения и сложностям в моделировании просодии. Мы предлагаем CLAPSpeech, кросс-модальную контрастную предобучающую структуру, которая явно изучает вариации просодии одного и того же текстового токена в различных контекстах. В частности: 1) Мы стимулируем модель связывать текстовый контекст с соответствующей ему просодической структурой в совместном мультимодальном пространстве с помощью тщательно разработанных входных данных энкодера и контрастной функции потерь; 2) Мы вводим многоуровневый предобучающий конвейер для захвата просодических структур на нескольких уровнях. Мы показываем, как интегрировать CLAPSpeech в существующие модели TTS для улучшения просодии. Эксперименты на трех наборах данных не только демонстрируют, что CLAPSpeech может улучшить предсказание просодии для существующих методов TTS, но и показывают его способность к обобщению для адаптации к нескольким языкам и многоговорящему TTS. Мы также глубоко анализируем принципы, лежащие в основе производительности CLAPSpeech. Абляционные исследования подтверждают необходимость каждого компонента нашего метода. Исходный код и аудиообразцы доступны по адресу https://clapspeech.github.io.
English
Improving text representation has attracted much attention to achieve
expressive text-to-speech (TTS). However, existing works only implicitly learn
the prosody with masked token reconstruction tasks, which leads to low training
efficiency and difficulty in prosody modeling. We propose CLAPSpeech, a
cross-modal contrastive pre-training framework that explicitly learns the
prosody variance of the same text token under different contexts. Specifically,
1) We encourage the model to connect the text context with its corresponding
prosody pattern in the joint multi-modal space with the elaborate design of the
encoder inputs and contrastive loss; 2) We introduce a multi-scale pre-training
pipeline to capture prosody patterns in multiple levels. We show how to
incorporate CLAPSpeech into existing TTS models for better prosody. Experiments
on three datasets not only show that CLAPSpeech could improve the prosody
prediction for existing TTS methods, but also demonstrate its generalization
ability to adapt to multiple languages and multi-speaker TTS. We also deeply
analyze the principle behind the performance of CLAPSpeech. Ablation studies
demonstrate the necessity of each component in our method. Source code and
audio samples are available at https://clapspeech.github.io.