CLIPSonic: Tekst-naar-audio-synthese met ongelabelde video's en vooraf getrainde taal-visie modellen

Samenvatting

Recent onderzoek heeft tekst-naar-audio-synthese bestudeerd met behulp van grote hoeveelheden gepaarde tekst-audio-data. Echter kunnen audio-opnames met hoogwaardige tekstannotaties moeilijk te verkrijgen zijn. In dit werk benaderen we tekst-naar-audio-synthese met behulp van ongelabelde video's en voorgetrainde taal-visie-modellen. We stellen voor om de gewenste tekst-audio-correspondentie te leren door het visuele modaliteit als brug te gebruiken. We trainen een conditioneel diffusiemodel om het audiospoor van een video te genereren, gegeven een videoframe gecodeerd door een voorgetraind contrastief taal-beeld-trainingsmodel (CLIP). Tijdens de testfase onderzoeken we eerst het uitvoeren van een zero-shot modaliteitsoverdracht en conditioneren we het diffusiemodel met een CLIP-gecodeerde tekstquery. We observeren echter een merkbare prestatievermindering ten opzichte van beeldqueries. Om deze kloof te dichten, nemen we verder een voorgetraind diffusieprior-model aan om een CLIP-beeldembedding te genereren gegeven een CLIP-tekstembedding. Onze resultaten tonen de effectiviteit van de voorgestelde methode, en dat het voorgetrainde diffusieprior-model de modaliteitsoverdrachtskloof kan verkleinen. Hoewel we ons richten op tekst-naar-audio-synthese, kan het voorgestelde model ook audio genereren vanuit beeldqueries, en het toont competitieve prestaties tegen een state-of-the-art beeld-naar-audio-synthesemodel in een subjectieve luistertest. Deze studie biedt een nieuwe richting voor het benaderen van tekst-naar-audio-synthese die gebruikmaakt van de van nature voorkomende audio-visuele correspondentie in video's en de kracht van voorgetrainde taal-visie-modellen.

English

Recent work has studied text-to-audio synthesis using large amounts of paired text-audio data. However, audio recordings with high-quality text annotations can be difficult to acquire. In this work, we approach text-to-audio synthesis using unlabeled videos and pretrained language-vision models. We propose to learn the desired text-audio correspondence by leveraging the visual modality as a bridge. We train a conditional diffusion model to generate the audio track of a video, given a video frame encoded by a pretrained contrastive language-image pretraining (CLIP) model. At test time, we first explore performing a zero-shot modality transfer and condition the diffusion model with a CLIP-encoded text query. However, we observe a noticeable performance drop with respect to image queries. To close this gap, we further adopt a pretrained diffusion prior model to generate a CLIP image embedding given a CLIP text embedding. Our results show the effectiveness of the proposed method, and that the pretrained diffusion prior can reduce the modality transfer gap. While we focus on text-to-audio synthesis, the proposed model can also generate audio from image queries, and it shows competitive performance against a state-of-the-art image-to-audio synthesis model in a subjective listening test. This study offers a new direction of approaching text-to-audio synthesis that leverages the naturally-occurring audio-visual correspondence in videos and the power of pretrained language-vision models.

CLIPSonic: Tekst-naar-audio-synthese met ongelabelde video's en vooraf getrainde taal-visie modellen

CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained Language-Vision Models

Samenvatting

Support