AV-связь: Временно-выровненные диффузионные признаки для кросс-модальной генерации аудио-видео.
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation
December 19, 2024
Авторы: Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Alper Canberk, Kwot Sin Lee, Vicente Ordonez, Sergey Tulyakov
cs.AI
Аннотация
Мы предлагаем AV-Link, унифицированную структуру для генерации видео в аудио и аудио в видео, использующую активации замороженных моделей диффузии видео и аудио для взаимосвязи модальностей с соблюдением временной согласованности. Ключевым элементом нашей структуры является блок слияния, обеспечивающий двусторонний обмен информацией между нашими основными моделями диффузии видео и аудио через операцию внимания к себе с соблюдением временной согласованности. В отличие от предыдущих работ, использующих предварительно обученные извлекатели признаков для условного сигнала, AV-Link может напрямую использовать признаки, полученные с помощью дополнительной модальности, в рамках единой структуры, то есть признаки видео для генерации аудио или признаки аудио для генерации видео. Мы подробно оцениваем наши выборы дизайна и демонстрируем способность нашего метода достигать синхронизированного и высококачественного аудиовизуального контента, показывая его потенциал для применения в генерации иммерсивных медиа. Страница проекта: snap-research.github.io/AVLink/
English
We propose AV-Link, a unified framework for Video-to-Audio and Audio-to-Video
generation that leverages the activations of frozen video and audio diffusion
models for temporally-aligned cross-modal conditioning. The key to our
framework is a Fusion Block that enables bidirectional information exchange
between our backbone video and audio diffusion models through a
temporally-aligned self attention operation. Unlike prior work that uses
feature extractors pretrained for other tasks for the conditioning signal,
AV-Link can directly leverage features obtained by the complementary modality
in a single framework i.e. video features to generate audio, or audio features
to generate video. We extensively evaluate our design choices and demonstrate
the ability of our method to achieve synchronized and high-quality audiovisual
content, showcasing its potential for applications in immersive media
generation. Project Page: snap-research.github.io/AVLink/Summary
AI-Generated Summary