Génération audio-vidéo diversifiée et alignée via l'adaptation de modèles texte-vidéo
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation
September 28, 2023
papers.authors: Guy Yariv, Itai Gat, Sagie Benaim, Lior Wolf, Idan Schwartz, Yossi Adi
cs.AI
papers.abstract
Nous considérons la tâche de générer des vidéos diversifiées et réalistes guidées par des échantillons audio naturels provenant d'une grande variété de classes sémantiques. Pour cette tâche, les vidéos doivent être alignées à la fois globalement et temporellement avec l'audio d'entrée : globalement, l'audio d'entrée est sémantiquement associé à l'ensemble de la vidéo générée, et temporellement, chaque segment de l'audio d'entrée est associé à un segment correspondant de cette vidéo. Nous utilisons un modèle existant de génération de vidéos conditionné par le texte ainsi qu'un modèle encodeur audio pré-entraîné. La méthode proposée repose sur un réseau adaptateur léger, qui apprend à mapper la représentation basée sur l'audio à la représentation d'entrée attendue par le modèle de génération de texte-à-vidéo. Ainsi, elle permet également la génération de vidéos conditionnées par le texte, par l'audio et, pour la première fois à notre connaissance, par les deux simultanément. Nous validons notre méthode de manière approfondie sur trois ensembles de données démontrant une diversité sémantique significative des échantillons audio-vidéo, et nous proposons en outre une nouvelle métrique d'évaluation (AV-Align) pour évaluer l'alignement des vidéos générées avec les échantillons audio d'entrée. AV-Align est basée sur la détection et la comparaison des pics d'énergie dans les deux modalités. Par rapport aux approches récentes de l'état de l'art, notre méthode génère des vidéos mieux alignées avec le son d'entrée, tant sur le plan du contenu que de l'axe temporel. Nous montrons également que les vidéos produites par notre méthode présentent une qualité visuelle supérieure et sont plus diversifiées.
English
We consider the task of generating diverse and realistic videos guided by
natural audio samples from a wide variety of semantic classes. For this task,
the videos are required to be aligned both globally and temporally with the
input audio: globally, the input audio is semantically associated with the
entire output video, and temporally, each segment of the input audio is
associated with a corresponding segment of that video. We utilize an existing
text-conditioned video generation model and a pre-trained audio encoder model.
The proposed method is based on a lightweight adaptor network, which learns to
map the audio-based representation to the input representation expected by the
text-to-video generation model. As such, it also enables video generation
conditioned on text, audio, and, for the first time as far as we can ascertain,
on both text and audio. We validate our method extensively on three datasets
demonstrating significant semantic diversity of audio-video samples and further
propose a novel evaluation metric (AV-Align) to assess the alignment of
generated videos with input audio samples. AV-Align is based on the detection
and comparison of energy peaks in both modalities. In comparison to recent
state-of-the-art approaches, our method generates videos that are better
aligned with the input sound, both with respect to content and temporal axis.
We also show that videos produced by our method present higher visual quality
and are more diverse.