AV-DiT: Transformador de Difusión Audio-Visual Eficiente para la Generación Conjunta de Audio y Video
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation
June 11, 2024
Autores: Kai Wang, Shijian Deng, Jing Shi, Dimitrios Hatzinakos, Yapeng Tian
cs.AI
Resumen
Los Transformadores de Difusión Recientes (DiTs) han demostrado capacidades impresionantes en la generación de contenido unimodal de alta calidad, incluyendo imágenes, videos y audio. Sin embargo, aún no se ha explorado suficientemente si el difusor basado en transformadores puede desruir eficientemente el ruido gaussiano para la creación de contenido multimodal excepcional. Para cerrar esta brecha, presentamos AV-DiT, un novedoso y eficiente transformador de difusión audio-visual diseñado para generar videos realistas de alta calidad con pistas tanto visuales como auditivas. Para minimizar la complejidad del modelo y los costos computacionales, AV-DiT utiliza un núcleo compartido de DiT preentrenado con datos exclusivamente de imágenes, donde solo se entrenan adaptadores ligeros recién insertados. Este núcleo compartido facilita la generación tanto de audio como de video. Específicamente, la rama de video incorpora una capa de atención temporal entrenable en un bloque de DiT preentrenado y congelado para garantizar la consistencia temporal. Además, un pequeño número de parámetros entrenables adapta el bloque de DiT basado en imágenes para la generación de audio. Un bloque adicional compartido de DiT, equipado con parámetros ligeros, facilita la interacción de características entre las modalidades de audio y visuales, asegurando su alineación. Experimentos extensivos en los conjuntos de datos AIST++ y Landscape demuestran que AV-DiT alcanza un rendimiento de vanguardia en la generación conjunta de audio y video con un número significativamente menor de parámetros ajustables. Además, nuestros resultados destacan que un único núcleo generativo de imágenes compartido con adaptaciones específicas por modalidad es suficiente para construir un generador conjunto de audio y video. Nuestro código fuente y modelos preentrenados serán liberados.
English
Recent Diffusion Transformers (DiTs) have shown impressive capabilities in
generating high-quality single-modality content, including images, videos, and
audio. However, it is still under-explored whether the transformer-based
diffuser can efficiently denoise the Gaussian noises towards superb multimodal
content creation. To bridge this gap, we introduce AV-DiT, a novel and
efficient audio-visual diffusion transformer designed to generate high-quality,
realistic videos with both visual and audio tracks. To minimize model
complexity and computational costs, AV-DiT utilizes a shared DiT backbone
pre-trained on image-only data, with only lightweight, newly inserted adapters
being trainable. This shared backbone facilitates both audio and video
generation. Specifically, the video branch incorporates a trainable temporal
attention layer into a frozen pre-trained DiT block for temporal consistency.
Additionally, a small number of trainable parameters adapt the image-based DiT
block for audio generation. An extra shared DiT block, equipped with
lightweight parameters, facilitates feature interaction between audio and
visual modalities, ensuring alignment. Extensive experiments on the AIST++ and
Landscape datasets demonstrate that AV-DiT achieves state-of-the-art
performance in joint audio-visual generation with significantly fewer tunable
parameters. Furthermore, our results highlight that a single shared image
generative backbone with modality-specific adaptations is sufficient for
constructing a joint audio-video generator. Our source code and pre-trained
models will be released.Summary
AI-Generated Summary