AV-Link: Tijdelijk uitgelijnde diffusiekenmerken voor crossmodale audio-video generatie
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation
December 19, 2024
Auteurs: Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Alper Canberk, Kwot Sin Lee, Vicente Ordonez, Sergey Tulyakov
cs.AI
Samenvatting
Wij stellen AV-Link voor, een verenigd kader voor het genereren van video naar audio en audio naar video dat gebruikmaakt van de activaties van bevroren video- en audioverspreidingsmodellen voor temporeel uitgelijnde crossmodale conditionering. De sleutel tot ons kader is een Fusieblok dat bidirectionele informatie-uitwisseling mogelijk maakt tussen onze video- en audioverspreidingsmodellen via een temporeel uitgelijnde zelfaandachtsoperatie. In tegenstelling tot eerdere werken die functie-extractors gebruiken die voor andere taken zijn voorgeleerd voor het conditioneringssignaal, kan AV-Link direct kenmerken benutten die zijn verkregen door de aanvullende modaliteit in een enkel kader, dat wil zeggen videokenmerken om audio te genereren, of audiokenmerken om video te genereren. We evalueren uitgebreid onze ontwerpkeuzes en tonen de mogelijkheid van onze methode aan om gesynchroniseerde en hoogwaardige audiovisuele inhoud te bereiken, waarbij we het potentieel ervan voor toepassingen in de generatie van meeslepende media demonstreren. Projectpagina: snap-research.github.io/AVLink/
English
We propose AV-Link, a unified framework for Video-to-Audio and Audio-to-Video
generation that leverages the activations of frozen video and audio diffusion
models for temporally-aligned cross-modal conditioning. The key to our
framework is a Fusion Block that enables bidirectional information exchange
between our backbone video and audio diffusion models through a
temporally-aligned self attention operation. Unlike prior work that uses
feature extractors pretrained for other tasks for the conditioning signal,
AV-Link can directly leverage features obtained by the complementary modality
in a single framework i.e. video features to generate audio, or audio features
to generate video. We extensively evaluate our design choices and demonstrate
the ability of our method to achieve synchronized and high-quality audiovisual
content, showcasing its potential for applications in immersive media
generation. Project Page: snap-research.github.io/AVLink/