AV-DiT: Effizienter Audio-Visueller Diffusions-Transformer für die gemeinsame Erzeugung von Audio und Video.
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation
June 11, 2024
Autoren: Kai Wang, Shijian Deng, Jing Shi, Dimitrios Hatzinakos, Yapeng Tian
cs.AI
Zusammenfassung
In jüngster Zeit haben Diffusionstransformatoren (DiTs) beeindruckende Fähigkeiten bei der Erzeugung hochwertiger Inhalte in einer Modalität gezeigt, einschließlich Bilder, Videos und Audio. Es ist jedoch noch unerforscht, ob der auf Transformatoren basierende Diffusor effizient Rauschen entfernen kann, um eine hervorragende multimodale Inhalterzeugung zu ermöglichen. Um diese Lücke zu schließen, stellen wir AV-DiT vor, einen neuartigen und effizienten audiovisuellen Diffusionstransformator, der darauf ausgelegt ist, hochwertige, realistische Videos mit sowohl visuellen als auch auditiven Spuren zu erzeugen. Um die Modellkomplexität und die Rechenkosten zu minimieren, nutzt AV-DiT eine gemeinsame DiT-Grundstruktur, die auf ausschließlich Bildern vortrainiert ist, wobei nur leichte, neu eingefügte Adapter trainierbar sind. Diese gemeinsame Grundstruktur ermöglicht sowohl die Audio- als auch die Videoerzeugung. Speziell integriert der Videozweig eine trainierbare zeitliche Aufmerksamkeitsschicht in einen eingefrorenen vortrainierten DiT-Block für zeitliche Konsistenz. Darüber hinaus passen eine kleine Anzahl trainierbarer Parameter den bildbasierten DiT-Block für die Audioerzeugung an. Ein zusätzlicher gemeinsamer DiT-Block, ausgestattet mit leichten Parametern, erleichtert die Merkmalsinteraktion zwischen Audio- und visuellen Modalitäten, um die Ausrichtung sicherzustellen. Umfangreiche Experimente mit den Datensätzen AIST++ und Landscape zeigen, dass AV-DiT eine Spitzenleistung bei der gemeinsamen Audio-Vis-Erzeugung mit signifikant weniger anpassbaren Parametern erreicht. Darüber hinaus verdeutlichen unsere Ergebnisse, dass eine einzige gemeinsame bildgenerierende Grundstruktur mit modalitätsspezifischen Anpassungen ausreicht, um einen gemeinsamen Audio-Video-Generator zu erstellen. Unser Quellcode und vortrainierte Modelle werden veröffentlicht.
English
Recent Diffusion Transformers (DiTs) have shown impressive capabilities in
generating high-quality single-modality content, including images, videos, and
audio. However, it is still under-explored whether the transformer-based
diffuser can efficiently denoise the Gaussian noises towards superb multimodal
content creation. To bridge this gap, we introduce AV-DiT, a novel and
efficient audio-visual diffusion transformer designed to generate high-quality,
realistic videos with both visual and audio tracks. To minimize model
complexity and computational costs, AV-DiT utilizes a shared DiT backbone
pre-trained on image-only data, with only lightweight, newly inserted adapters
being trainable. This shared backbone facilitates both audio and video
generation. Specifically, the video branch incorporates a trainable temporal
attention layer into a frozen pre-trained DiT block for temporal consistency.
Additionally, a small number of trainable parameters adapt the image-based DiT
block for audio generation. An extra shared DiT block, equipped with
lightweight parameters, facilitates feature interaction between audio and
visual modalities, ensuring alignment. Extensive experiments on the AIST++ and
Landscape datasets demonstrate that AV-DiT achieves state-of-the-art
performance in joint audio-visual generation with significantly fewer tunable
parameters. Furthermore, our results highlight that a single shared image
generative backbone with modality-specific adaptations is sufficient for
constructing a joint audio-video generator. Our source code and pre-trained
models will be released.Summary
AI-Generated Summary