CLIPSonic: Синтез аудио из текста с использованием немаркированных видео и предобученных языково-визуальных моделей
CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained Language-Vision Models
June 16, 2023
Авторы: Hao-Wen Dong, Xiaoyu Liu, Jordi Pons, Gautam Bhattacharya, Santiago Pascual, Joan Serrà, Taylor Berg-Kirkpatrick, Julian McAuley
cs.AI
Аннотация
В последних исследованиях изучался синтез аудио из текста с использованием больших объемов парных данных текст-аудио. Однако аудиозаписи с высококачественными текстовыми аннотациями могут быть труднодоступными. В данной работе мы подходим к синтезу аудио из текста с использованием немаркированных видео и предобученных моделей, связывающих язык и визуальную информацию. Мы предлагаем изучать соответствие между текстом и аудио, используя визуальную модальность в качестве связующего звена. Мы обучаем условную диффузионную модель генерировать аудиодорожку видео на основе кадра, закодированного с помощью предобученной модели контрастного обучения языку и изображению (CLIP). На этапе тестирования мы сначала исследуем возможность выполнения нулевого переноса модальности, используя текстовый запрос, закодированный CLIP, в качестве условия для диффузионной модели. Однако мы наблюдаем заметное снижение производительности по сравнению с запросами на основе изображений. Чтобы сократить этот разрыв, мы дополнительно применяем предобученную диффузионную модель-приор для генерации CLIP-эмбеддинга изображения на основе CLIP-эмбеддинга текста. Наши результаты демонстрируют эффективность предложенного метода и то, что предобученная диффузионная модель-приор может уменьшить разрыв при переносе модальности. Хотя мы сосредоточены на синтезе аудио из текста, предложенная модель также способна генерировать аудио на основе запросов с изображениями и показывает конкурентоспособные результаты по сравнению с современной моделью синтеза аудио из изображений в субъективном тесте на прослушивание. Это исследование предлагает новый подход к синтезу аудио из текста, который использует естественную связь между аудио и визуальной информацией в видео и возможности предобученных моделей, связывающих язык и визуальную информацию.
English
Recent work has studied text-to-audio synthesis using large amounts of paired
text-audio data. However, audio recordings with high-quality text annotations
can be difficult to acquire. In this work, we approach text-to-audio synthesis
using unlabeled videos and pretrained language-vision models. We propose to
learn the desired text-audio correspondence by leveraging the visual modality
as a bridge. We train a conditional diffusion model to generate the audio track
of a video, given a video frame encoded by a pretrained contrastive
language-image pretraining (CLIP) model. At test time, we first explore
performing a zero-shot modality transfer and condition the diffusion model with
a CLIP-encoded text query. However, we observe a noticeable performance drop
with respect to image queries. To close this gap, we further adopt a pretrained
diffusion prior model to generate a CLIP image embedding given a CLIP text
embedding. Our results show the effectiveness of the proposed method, and that
the pretrained diffusion prior can reduce the modality transfer gap. While we
focus on text-to-audio synthesis, the proposed model can also generate audio
from image queries, and it shows competitive performance against a
state-of-the-art image-to-audio synthesis model in a subjective listening test.
This study offers a new direction of approaching text-to-audio synthesis that
leverages the naturally-occurring audio-visual correspondence in videos and the
power of pretrained language-vision models.