CLIPSonic: Sintesi da Testo ad Audio con Video Non Etichettati e Modelli Pre-addestrati Linguaggio-Visione
CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained Language-Vision Models
June 16, 2023
Autori: Hao-Wen Dong, Xiaoyu Liu, Jordi Pons, Gautam Bhattacharya, Santiago Pascual, Joan Serrà, Taylor Berg-Kirkpatrick, Julian McAuley
cs.AI
Abstract
Recenti lavori hanno studiato la sintesi testo-audio utilizzando grandi quantità di dati accoppiati testo-audio. Tuttavia, le registrazioni audio con annotazioni testuali di alta qualità possono essere difficili da acquisire. In questo lavoro, affrontiamo la sintesi testo-audio utilizzando video non etichettati e modelli pre-addestrati di linguaggio-visione. Proponiamo di apprendere la corrispondenza testo-audio desiderata sfruttando la modalità visiva come ponte. Addestriamo un modello di diffusione condizionale per generare la traccia audio di un video, dato un fotogramma video codificato da un modello pre-addestrato di contrastive language-image pretraining (CLIP). Al momento del test, esploriamo inizialmente l'esecuzione di un trasferimento di modalità zero-shot e condizioniamo il modello di diffusione con una query testuale codificata da CLIP. Tuttavia, osserviamo un calo significativo delle prestazioni rispetto alle query basate su immagini. Per colmare questo divario, adottiamo ulteriormente un modello di diffusione prior pre-addestrato per generare un'embedding di immagine CLIP dato un'embedding di testo CLIP. I nostri risultati mostrano l'efficacia del metodo proposto e che il diffusore prior pre-addestrato può ridurre il divario nel trasferimento di modalità. Sebbene ci concentriamo sulla sintesi testo-audio, il modello proposto può anche generare audio da query basate su immagini e mostra prestazioni competitive rispetto a un modello all'avanguardia di sintesi immagine-audio in un test di ascolto soggettivo. Questo studio offre una nuova direzione per affrontare la sintesi testo-audio che sfrutta la corrispondenza audio-visiva naturalmente presente nei video e la potenza dei modelli pre-addestrati di linguaggio-visione.
English
Recent work has studied text-to-audio synthesis using large amounts of paired
text-audio data. However, audio recordings with high-quality text annotations
can be difficult to acquire. In this work, we approach text-to-audio synthesis
using unlabeled videos and pretrained language-vision models. We propose to
learn the desired text-audio correspondence by leveraging the visual modality
as a bridge. We train a conditional diffusion model to generate the audio track
of a video, given a video frame encoded by a pretrained contrastive
language-image pretraining (CLIP) model. At test time, we first explore
performing a zero-shot modality transfer and condition the diffusion model with
a CLIP-encoded text query. However, we observe a noticeable performance drop
with respect to image queries. To close this gap, we further adopt a pretrained
diffusion prior model to generate a CLIP image embedding given a CLIP text
embedding. Our results show the effectiveness of the proposed method, and that
the pretrained diffusion prior can reduce the modality transfer gap. While we
focus on text-to-audio synthesis, the proposed model can also generate audio
from image queries, and it shows competitive performance against a
state-of-the-art image-to-audio synthesis model in a subjective listening test.
This study offers a new direction of approaching text-to-audio synthesis that
leverages the naturally-occurring audio-visual correspondence in videos and the
power of pretrained language-vision models.