CLIPSonic: Síntese de Texto para Áudio com Vídeos Não Rotulados e Modelos Pré-treinados de Linguagem e Visão
CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained Language-Vision Models
June 16, 2023
Autores: Hao-Wen Dong, Xiaoyu Liu, Jordi Pons, Gautam Bhattacharya, Santiago Pascual, Joan Serrà, Taylor Berg-Kirkpatrick, Julian McAuley
cs.AI
Resumo
Trabalhos recentes têm estudado a síntese de texto para áudio utilizando grandes quantidades de dados pareados de texto e áudio. No entanto, gravações de áudio com anotações textuais de alta qualidade podem ser difíceis de adquirir. Neste trabalho, abordamos a síntese de texto para áudio utilizando vídeos não rotulados e modelos pré-treinados de linguagem-visão. Propomos aprender a correspondência desejada entre texto e áudio aproveitando a modalidade visual como uma ponte. Treinamos um modelo de difusão condicional para gerar a trilha sonora de um vídeo, dado um quadro de vídeo codificado por um modelo pré-treinado de aprendizado contrastivo de linguagem-imagem (CLIP). No momento do teste, primeiro exploramos a realização de uma transferência de modalidade zero-shot e condicionamos o modelo de difusão com uma consulta de texto codificada pelo CLIP. No entanto, observamos uma queda perceptível no desempenho em relação às consultas de imagem. Para reduzir essa lacuna, adotamos ainda um modelo de difusão pré-treinado para gerar uma incorporação de imagem CLIP dada uma incorporação de texto CLIP. Nossos resultados mostram a eficácia do método proposto e que o modelo de difusão pré-treinado pode reduzir a lacuna de transferência de modalidade. Embora nos concentremos na síntese de texto para áudio, o modelo proposto também pode gerar áudio a partir de consultas de imagem e mostra desempenho competitivo em relação a um modelo state-of-the-art de síntese de imagem para áudio em um teste de escuta subjetivo. Este estudo oferece uma nova direção para abordar a síntese de texto para áudio que aproveita a correspondência áudio-visual naturalmente presente em vídeos e o poder dos modelos pré-treinados de linguagem-visão.
English
Recent work has studied text-to-audio synthesis using large amounts of paired
text-audio data. However, audio recordings with high-quality text annotations
can be difficult to acquire. In this work, we approach text-to-audio synthesis
using unlabeled videos and pretrained language-vision models. We propose to
learn the desired text-audio correspondence by leveraging the visual modality
as a bridge. We train a conditional diffusion model to generate the audio track
of a video, given a video frame encoded by a pretrained contrastive
language-image pretraining (CLIP) model. At test time, we first explore
performing a zero-shot modality transfer and condition the diffusion model with
a CLIP-encoded text query. However, we observe a noticeable performance drop
with respect to image queries. To close this gap, we further adopt a pretrained
diffusion prior model to generate a CLIP image embedding given a CLIP text
embedding. Our results show the effectiveness of the proposed method, and that
the pretrained diffusion prior can reduce the modality transfer gap. While we
focus on text-to-audio synthesis, the proposed model can also generate audio
from image queries, and it shows competitive performance against a
state-of-the-art image-to-audio synthesis model in a subjective listening test.
This study offers a new direction of approaching text-to-audio synthesis that
leverages the naturally-occurring audio-visual correspondence in videos and the
power of pretrained language-vision models.