AV-DiT: Trasformatore Diffusivo Audio-Visuale Efficiente per la Generazione Congiunta di Audio e Video
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation
June 11, 2024
Autori: Kai Wang, Shijian Deng, Jing Shi, Dimitrios Hatzinakos, Yapeng Tian
cs.AI
Abstract
I recenti Diffusion Transformer (DiT) hanno dimostrato capacità impressionanti nella generazione di contenuti di alta qualità in singola modalità, inclusi immagini, video e audio. Tuttavia, rimane ancora poco esplorato se il diffusore basato su transformer possa denoisare efficientemente il rumore gaussiano verso una creazione di contenuti multimodale di eccellenza. Per colmare questa lacuna, introduciamo AV-DiT, un innovativo ed efficiente diffusion transformer audio-visivo progettato per generare video di alta qualità e realistici con tracce sia visive che audio. Per minimizzare la complessità del modello e i costi computazionali, AV-DiT utilizza un backbone DiT condiviso pre-addestrato su dati esclusivamente visivi, con solo adattatori leggeri e di nuova inserzione che vengono addestrati. Questo backbone condiviso facilita sia la generazione audio che video. Nello specifico, il ramo video incorpora uno strato di attenzione temporale addestrabile in un blocco DiT pre-addestrato e congelato per garantire la coerenza temporale. Inoltre, un piccolo numero di parametri addestrabili adatta il blocco DiT basato su immagini per la generazione audio. Un ulteriore blocco DiT condiviso, dotato di parametri leggeri, facilita l'interazione delle feature tra le modalità audio e visive, assicurandone l'allineamento. Esperimenti estensivi sui dataset AIST++ e Landscape dimostrano che AV-DiT raggiunge prestazioni all'avanguardia nella generazione congiunta audio-visiva con un numero significativamente inferiore di parametri regolabili. Inoltre, i nostri risultati evidenziano che un singolo backbone generativo di immagini condiviso, con adattamenti specifici per modalità, è sufficiente per costruire un generatore congiunto audio-video. Il nostro codice sorgente e i modelli pre-addestrati saranno rilasciati.
English
Recent Diffusion Transformers (DiTs) have shown impressive capabilities in
generating high-quality single-modality content, including images, videos, and
audio. However, it is still under-explored whether the transformer-based
diffuser can efficiently denoise the Gaussian noises towards superb multimodal
content creation. To bridge this gap, we introduce AV-DiT, a novel and
efficient audio-visual diffusion transformer designed to generate high-quality,
realistic videos with both visual and audio tracks. To minimize model
complexity and computational costs, AV-DiT utilizes a shared DiT backbone
pre-trained on image-only data, with only lightweight, newly inserted adapters
being trainable. This shared backbone facilitates both audio and video
generation. Specifically, the video branch incorporates a trainable temporal
attention layer into a frozen pre-trained DiT block for temporal consistency.
Additionally, a small number of trainable parameters adapt the image-based DiT
block for audio generation. An extra shared DiT block, equipped with
lightweight parameters, facilitates feature interaction between audio and
visual modalities, ensuring alignment. Extensive experiments on the AIST++ and
Landscape datasets demonstrate that AV-DiT achieves state-of-the-art
performance in joint audio-visual generation with significantly fewer tunable
parameters. Furthermore, our results highlight that a single shared image
generative backbone with modality-specific adaptations is sufficient for
constructing a joint audio-video generator. Our source code and pre-trained
models will be released.