ChatPaper.aiChatPaper

AV-Link : Caractéristiques de diffusion temporellement alignées pour la génération audio-vidéo cross-modale

AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

December 19, 2024
Auteurs: Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Alper Canberk, Kwot Sin Lee, Vicente Ordonez, Sergey Tulyakov
cs.AI

Résumé

Nous proposons AV-Link, un cadre unifié pour la génération Vidéo-vers-Audio et Audio-vers-Vidéo qui exploite les activations des modèles de diffusion vidéo et audio figés pour un conditionnement croisé temporellement aligné. La clé de notre cadre est un Bloc de Fusion qui permet un échange d'informations bidirectionnel entre nos modèles de diffusion vidéo et audio de base grâce à une opération d'auto-attention temporellement alignée. Contrairement aux travaux antérieurs qui utilisent des extracteurs de caractéristiques pré-entraînés pour d'autres tâches pour le signal de conditionnement, AV-Link peut directement exploiter les caractéristiques obtenues par la modalité complémentaire dans un cadre unique, c'est-à-dire les caractéristiques vidéo pour générer de l'audio, ou les caractéristiques audio pour générer de la vidéo. Nous évaluons en détail nos choix de conception et démontrons la capacité de notre méthode à produire un contenu audiovisuel synchronisé et de haute qualité, mettant en valeur son potentiel pour des applications dans la génération de médias immersifs. Page du projet : snap-research.github.io/AVLink/
English
We propose AV-Link, a unified framework for Video-to-Audio and Audio-to-Video generation that leverages the activations of frozen video and audio diffusion models for temporally-aligned cross-modal conditioning. The key to our framework is a Fusion Block that enables bidirectional information exchange between our backbone video and audio diffusion models through a temporally-aligned self attention operation. Unlike prior work that uses feature extractors pretrained for other tasks for the conditioning signal, AV-Link can directly leverage features obtained by the complementary modality in a single framework i.e. video features to generate audio, or audio features to generate video. We extensively evaluate our design choices and demonstrate the ability of our method to achieve synchronized and high-quality audiovisual content, showcasing its potential for applications in immersive media generation. Project Page: snap-research.github.io/AVLink/

Summary

AI-Generated Summary

PDF52December 20, 2024