ChatPaper.aiChatPaper

AV-DiT: Transformador de Difusión Audio-Visual Eficiente para la Generación Conjunta de Audio y Video

AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation

June 11, 2024
Autores: Kai Wang, Shijian Deng, Jing Shi, Dimitrios Hatzinakos, Yapeng Tian
cs.AI

Resumen

Los Transformadores de Difusión Recientes (DiTs) han demostrado capacidades impresionantes en la generación de contenido unimodal de alta calidad, incluyendo imágenes, videos y audio. Sin embargo, aún no se ha explorado suficientemente si el difusor basado en transformadores puede desruir eficientemente el ruido gaussiano para la creación de contenido multimodal excepcional. Para cerrar esta brecha, presentamos AV-DiT, un novedoso y eficiente transformador de difusión audio-visual diseñado para generar videos realistas de alta calidad con pistas tanto visuales como auditivas. Para minimizar la complejidad del modelo y los costos computacionales, AV-DiT utiliza un núcleo compartido de DiT preentrenado con datos exclusivamente de imágenes, donde solo se entrenan adaptadores ligeros recién insertados. Este núcleo compartido facilita la generación tanto de audio como de video. Específicamente, la rama de video incorpora una capa de atención temporal entrenable en un bloque de DiT preentrenado y congelado para garantizar la consistencia temporal. Además, un pequeño número de parámetros entrenables adapta el bloque de DiT basado en imágenes para la generación de audio. Un bloque adicional compartido de DiT, equipado con parámetros ligeros, facilita la interacción de características entre las modalidades de audio y visuales, asegurando su alineación. Experimentos extensivos en los conjuntos de datos AIST++ y Landscape demuestran que AV-DiT alcanza un rendimiento de vanguardia en la generación conjunta de audio y video con un número significativamente menor de parámetros ajustables. Además, nuestros resultados destacan que un único núcleo generativo de imágenes compartido con adaptaciones específicas por modalidad es suficiente para construir un generador conjunto de audio y video. Nuestro código fuente y modelos preentrenados serán liberados.
English
Recent Diffusion Transformers (DiTs) have shown impressive capabilities in generating high-quality single-modality content, including images, videos, and audio. However, it is still under-explored whether the transformer-based diffuser can efficiently denoise the Gaussian noises towards superb multimodal content creation. To bridge this gap, we introduce AV-DiT, a novel and efficient audio-visual diffusion transformer designed to generate high-quality, realistic videos with both visual and audio tracks. To minimize model complexity and computational costs, AV-DiT utilizes a shared DiT backbone pre-trained on image-only data, with only lightweight, newly inserted adapters being trainable. This shared backbone facilitates both audio and video generation. Specifically, the video branch incorporates a trainable temporal attention layer into a frozen pre-trained DiT block for temporal consistency. Additionally, a small number of trainable parameters adapt the image-based DiT block for audio generation. An extra shared DiT block, equipped with lightweight parameters, facilitates feature interaction between audio and visual modalities, ensuring alignment. Extensive experiments on the AIST++ and Landscape datasets demonstrate that AV-DiT achieves state-of-the-art performance in joint audio-visual generation with significantly fewer tunable parameters. Furthermore, our results highlight that a single shared image generative backbone with modality-specific adaptations is sufficient for constructing a joint audio-video generator. Our source code and pre-trained models will be released.

Summary

AI-Generated Summary

PDF170December 8, 2024