CLIPSonic: Sintesi da Testo ad Audio con Video Non Etichettati e Modelli Pre-addestrati Linguaggio-Visione

Abstract

Recenti lavori hanno studiato la sintesi testo-audio utilizzando grandi quantità di dati accoppiati testo-audio. Tuttavia, le registrazioni audio con annotazioni testuali di alta qualità possono essere difficili da acquisire. In questo lavoro, affrontiamo la sintesi testo-audio utilizzando video non etichettati e modelli pre-addestrati di linguaggio-visione. Proponiamo di apprendere la corrispondenza testo-audio desiderata sfruttando la modalità visiva come ponte. Addestriamo un modello di diffusione condizionale per generare la traccia audio di un video, dato un fotogramma video codificato da un modello pre-addestrato di contrastive language-image pretraining (CLIP). Al momento del test, esploriamo inizialmente l'esecuzione di un trasferimento di modalità zero-shot e condizioniamo il modello di diffusione con una query testuale codificata da CLIP. Tuttavia, osserviamo un calo significativo delle prestazioni rispetto alle query basate su immagini. Per colmare questo divario, adottiamo ulteriormente un modello di diffusione prior pre-addestrato per generare un'embedding di immagine CLIP dato un'embedding di testo CLIP. I nostri risultati mostrano l'efficacia del metodo proposto e che il diffusore prior pre-addestrato può ridurre il divario nel trasferimento di modalità. Sebbene ci concentriamo sulla sintesi testo-audio, il modello proposto può anche generare audio da query basate su immagini e mostra prestazioni competitive rispetto a un modello all'avanguardia di sintesi immagine-audio in un test di ascolto soggettivo. Questo studio offre una nuova direzione per affrontare la sintesi testo-audio che sfrutta la corrispondenza audio-visiva naturalmente presente nei video e la potenza dei modelli pre-addestrati di linguaggio-visione.

English

Recent work has studied text-to-audio synthesis using large amounts of paired text-audio data. However, audio recordings with high-quality text annotations can be difficult to acquire. In this work, we approach text-to-audio synthesis using unlabeled videos and pretrained language-vision models. We propose to learn the desired text-audio correspondence by leveraging the visual modality as a bridge. We train a conditional diffusion model to generate the audio track of a video, given a video frame encoded by a pretrained contrastive language-image pretraining (CLIP) model. At test time, we first explore performing a zero-shot modality transfer and condition the diffusion model with a CLIP-encoded text query. However, we observe a noticeable performance drop with respect to image queries. To close this gap, we further adopt a pretrained diffusion prior model to generate a CLIP image embedding given a CLIP text embedding. Our results show the effectiveness of the proposed method, and that the pretrained diffusion prior can reduce the modality transfer gap. While we focus on text-to-audio synthesis, the proposed model can also generate audio from image queries, and it shows competitive performance against a state-of-the-art image-to-audio synthesis model in a subjective listening test. This study offers a new direction of approaching text-to-audio synthesis that leverages the naturally-occurring audio-visual correspondence in videos and the power of pretrained language-vision models.

CLIPSonic: Sintesi da Testo ad Audio con Video Non Etichettati e Modelli Pre-addestrati Linguaggio-Visione

CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained Language-Vision Models

Abstract

Support