AV-DiT: Transformador de Difusão Áudio-Visual Eficiente para Geração Conjunta de Áudio e Vídeo

Resumo

Os Recentes Transformadores de Difusão (DiTs) têm demonstrado capacidades impressionantes na geração de conteúdo de alta qualidade em uma única modalidade, incluindo imagens, vídeos e áudio. No entanto, ainda é pouco explorado se o difusor baseado em transformadores pode desnaturar eficientemente os ruídos gaussianos para a criação de conteúdo multimodal de alta qualidade. Para preencher essa lacuna, introduzimos o AV-DiT, um novo e eficiente transformador de difusão áudio-visual projetado para gerar vídeos realistas de alta qualidade com trilhas visuais e de áudio. Para minimizar a complexidade do modelo e os custos computacionais, o AV-DiT utiliza um backbone DiT compartilhado pré-treinado em dados exclusivamente de imagens, com apenas adaptadores leves e recém-inseridos sendo treináveis. Esse backbone compartilhado facilita a geração tanto de áudio quanto de vídeo. Especificamente, o ramo de vídeo incorpora uma camada de atenção temporal treinável em um bloco DiT pré-treinado e congelado para consistência temporal. Além disso, um pequeno número de parâmetros treináveis adapta o bloco DiT baseado em imagens para a geração de áudio. Um bloco DiT compartilhado adicional, equipado com parâmetros leves, facilita a interação de características entre as modalidades de áudio e visual, garantindo alinhamento. Experimentos extensivos nos conjuntos de dados AIST++ e Landscape demonstram que o AV-DiT alcança desempenho de ponta na geração conjunta áudio-visual com significativamente menos parâmetros ajustáveis. Além disso, nossos resultados destacam que um único backbone gerativo de imagens compartilhado com adaptações específicas por modalidade é suficiente para construir um gerador conjunto de áudio e vídeo. Nosso código-fonte e modelos pré-treinados serão disponibilizados.

English

Recent Diffusion Transformers (DiTs) have shown impressive capabilities in generating high-quality single-modality content, including images, videos, and audio. However, it is still under-explored whether the transformer-based diffuser can efficiently denoise the Gaussian noises towards superb multimodal content creation. To bridge this gap, we introduce AV-DiT, a novel and efficient audio-visual diffusion transformer designed to generate high-quality, realistic videos with both visual and audio tracks. To minimize model complexity and computational costs, AV-DiT utilizes a shared DiT backbone pre-trained on image-only data, with only lightweight, newly inserted adapters being trainable. This shared backbone facilitates both audio and video generation. Specifically, the video branch incorporates a trainable temporal attention layer into a frozen pre-trained DiT block for temporal consistency. Additionally, a small number of trainable parameters adapt the image-based DiT block for audio generation. An extra shared DiT block, equipped with lightweight parameters, facilitates feature interaction between audio and visual modalities, ensuring alignment. Extensive experiments on the AIST++ and Landscape datasets demonstrate that AV-DiT achieves state-of-the-art performance in joint audio-visual generation with significantly fewer tunable parameters. Furthermore, our results highlight that a single shared image generative backbone with modality-specific adaptations is sufficient for constructing a joint audio-video generator. Our source code and pre-trained models will be released.

AV-DiT: Transformador de Difusão Áudio-Visual Eficiente para Geração Conjunta de Áudio e Vídeo

AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation

Resumo

Support