AV-Verknüpfung: Zeitlich abgestimmte Diffusionsmerkmale für die multimodale Audio-Video-Generierung
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation
December 19, 2024
Autoren: Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Alper Canberk, Kwot Sin Lee, Vicente Ordonez, Sergey Tulyakov
cs.AI
Zusammenfassung
Wir schlagen AV-Link vor, ein einheitliches Rahmenwerk für die Generierung von Video-zu-Audio und Audio-zu-Video, das die Aktivierungen von eingefrorenen Video- und Audio-Diffusionsmodellen für zeitlich abgestimmte Cross-Modal-Konditionierung nutzt. Der Schlüssel unseres Rahmenwerks ist ein Fusion Block, der einen bidirektionalen Informationsaustausch zwischen unseren Backbone-Video- und Audio-Diffusionsmodellen durch eine zeitlich abgestimmte Self-Attention-Operation ermöglicht. Im Gegensatz zu früheren Arbeiten, die Feature-Extraktoren, die für andere Aufgaben vortrainiert sind, für das Konditionierungssignal verwenden, kann AV-Link direkt Features nutzen, die durch die komplementäre Modalität in einem einzigen Rahmenwerk erhalten wurden, d.h. Video-Features zur Generierung von Audio oder Audio-Features zur Generierung von Video. Wir evaluieren ausführlich unsere Designentscheidungen und zeigen die Fähigkeit unserer Methode, synchronisierte und qualitativ hochwertige audiovisuelle Inhalte zu erzeugen, wodurch ihr Potenzial für Anwendungen in der Erzeugung immersiver Medien verdeutlicht wird. Projektseite: snap-research.github.io/AVLink/
English
We propose AV-Link, a unified framework for Video-to-Audio and Audio-to-Video
generation that leverages the activations of frozen video and audio diffusion
models for temporally-aligned cross-modal conditioning. The key to our
framework is a Fusion Block that enables bidirectional information exchange
between our backbone video and audio diffusion models through a
temporally-aligned self attention operation. Unlike prior work that uses
feature extractors pretrained for other tasks for the conditioning signal,
AV-Link can directly leverage features obtained by the complementary modality
in a single framework i.e. video features to generate audio, or audio features
to generate video. We extensively evaluate our design choices and demonstrate
the ability of our method to achieve synchronized and high-quality audiovisual
content, showcasing its potential for applications in immersive media
generation. Project Page: snap-research.github.io/AVLink/Summary
AI-Generated Summary