ChatPaper.aiChatPaper

AV-Link: Características de Difusión Temporalmente Alineadas para la Generación Cruzada de Audio y Video

AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

December 19, 2024
Autores: Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Alper Canberk, Kwot Sin Lee, Vicente Ordonez, Sergey Tulyakov
cs.AI

Resumen

Proponemos AV-Link, un marco unificado para la generación de Video a Audio y Audio a Video que aprovecha las activaciones de modelos de difusión de video y audio congelados para un condicionamiento cruzado temporalmente alineado. La clave de nuestro marco es un Bloque de Fusión que permite el intercambio bidireccional de información entre nuestros modelos de difusión de video y audio base a través de una operación de autoatención temporalmente alineada. A diferencia de trabajos anteriores que utilizan extractores de características preentrenados para otras tareas para la señal de condicionamiento, AV-Link puede aprovechar directamente características obtenidas por la modalidad complementaria en un único marco, es decir, características de video para generar audio, o características de audio para generar video. Evaluamos extensamente nuestras elecciones de diseño y demostramos la capacidad de nuestro método para lograr contenido audiovisual sincronizado y de alta calidad, mostrando su potencial para aplicaciones en la generación de medios inmersivos. Página del Proyecto: snap-research.github.io/AVLink/
English
We propose AV-Link, a unified framework for Video-to-Audio and Audio-to-Video generation that leverages the activations of frozen video and audio diffusion models for temporally-aligned cross-modal conditioning. The key to our framework is a Fusion Block that enables bidirectional information exchange between our backbone video and audio diffusion models through a temporally-aligned self attention operation. Unlike prior work that uses feature extractors pretrained for other tasks for the conditioning signal, AV-Link can directly leverage features obtained by the complementary modality in a single framework i.e. video features to generate audio, or audio features to generate video. We extensively evaluate our design choices and demonstrate the ability of our method to achieve synchronized and high-quality audiovisual content, showcasing its potential for applications in immersive media generation. Project Page: snap-research.github.io/AVLink/

Summary

AI-Generated Summary

PDF52December 20, 2024