Diverse en Afgestemde Audio-naar-Video Generatie via Aanpassing van Text-naar-Video Modellen
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation
September 28, 2023
Auteurs: Guy Yariv, Itai Gat, Sagie Benaim, Lior Wolf, Idan Schwartz, Yossi Adi
cs.AI
Samenvatting
We beschouwen de taak van het genereren van diverse en realistische video's die worden gestuurd door natuurlijke audiofragmenten uit een breed scala aan semantische klassen. Voor deze taak moeten de video's zowel globaal als temporeel afgestemd zijn op de invoeraudio: globaal is de invoeraudio semantisch geassocieerd met de gehele uitvoervideo, en temporeel is elk segment van de invoeraudio geassocieerd met een overeenkomstig segment van die video. We maken gebruik van een bestaand tekstgeconditioneerd videogeneratiemodel en een vooraf getraind audio-encodermodel. De voorgestelde methode is gebaseerd op een lichtgewicht adaptornetwerk, dat leert om de audio-gebaseerde representatie af te beelden op de invoerrepresentatie die wordt verwacht door het tekst-naar-video-generatiemodel. Hierdoor maakt het ook videogeneratie mogelijk die geconditioneerd is op tekst, audio, en, voor zover wij kunnen vaststellen voor het eerst, op zowel tekst als audio. We valideren onze methode uitgebreid op drie datasets die een aanzienlijke semantische diversiteit van audio-videofragmenten demonstreren en stellen verder een nieuwe evaluatiemetriek (AV-Align) voor om de afstemming van gegenereerde video's met invoeraudiofragmenten te beoordelen. AV-Align is gebaseerd op de detectie en vergelijking van energiepieken in beide modaliteiten. In vergelijking met recente state-of-the-art benaderingen genereert onze methode video's die beter zijn afgestemd op het invoergeluid, zowel wat betreft inhoud als temporele as. We tonen ook aan dat video's die door onze methode worden geproduceerd een hogere visuele kwaliteit hebben en diverser zijn.
English
We consider the task of generating diverse and realistic videos guided by
natural audio samples from a wide variety of semantic classes. For this task,
the videos are required to be aligned both globally and temporally with the
input audio: globally, the input audio is semantically associated with the
entire output video, and temporally, each segment of the input audio is
associated with a corresponding segment of that video. We utilize an existing
text-conditioned video generation model and a pre-trained audio encoder model.
The proposed method is based on a lightweight adaptor network, which learns to
map the audio-based representation to the input representation expected by the
text-to-video generation model. As such, it also enables video generation
conditioned on text, audio, and, for the first time as far as we can ascertain,
on both text and audio. We validate our method extensively on three datasets
demonstrating significant semantic diversity of audio-video samples and further
propose a novel evaluation metric (AV-Align) to assess the alignment of
generated videos with input audio samples. AV-Align is based on the detection
and comparison of energy peaks in both modalities. In comparison to recent
state-of-the-art approaches, our method generates videos that are better
aligned with the input sound, both with respect to content and temporal axis.
We also show that videos produced by our method present higher visual quality
and are more diverse.