ChatPaper.aiChatPaper

AV-DiT: Effizienter Audio-Visueller Diffusions-Transformer für die gemeinsame Erzeugung von Audio und Video.

AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation

June 11, 2024
Autoren: Kai Wang, Shijian Deng, Jing Shi, Dimitrios Hatzinakos, Yapeng Tian
cs.AI

Zusammenfassung

In jüngster Zeit haben Diffusionstransformatoren (DiTs) beeindruckende Fähigkeiten bei der Erzeugung hochwertiger Inhalte in einer Modalität gezeigt, einschließlich Bilder, Videos und Audio. Es ist jedoch noch unerforscht, ob der auf Transformatoren basierende Diffusor effizient Rauschen entfernen kann, um eine hervorragende multimodale Inhalterzeugung zu ermöglichen. Um diese Lücke zu schließen, stellen wir AV-DiT vor, einen neuartigen und effizienten audiovisuellen Diffusionstransformator, der darauf ausgelegt ist, hochwertige, realistische Videos mit sowohl visuellen als auch auditiven Spuren zu erzeugen. Um die Modellkomplexität und die Rechenkosten zu minimieren, nutzt AV-DiT eine gemeinsame DiT-Grundstruktur, die auf ausschließlich Bildern vortrainiert ist, wobei nur leichte, neu eingefügte Adapter trainierbar sind. Diese gemeinsame Grundstruktur ermöglicht sowohl die Audio- als auch die Videoerzeugung. Speziell integriert der Videozweig eine trainierbare zeitliche Aufmerksamkeitsschicht in einen eingefrorenen vortrainierten DiT-Block für zeitliche Konsistenz. Darüber hinaus passen eine kleine Anzahl trainierbarer Parameter den bildbasierten DiT-Block für die Audioerzeugung an. Ein zusätzlicher gemeinsamer DiT-Block, ausgestattet mit leichten Parametern, erleichtert die Merkmalsinteraktion zwischen Audio- und visuellen Modalitäten, um die Ausrichtung sicherzustellen. Umfangreiche Experimente mit den Datensätzen AIST++ und Landscape zeigen, dass AV-DiT eine Spitzenleistung bei der gemeinsamen Audio-Vis-Erzeugung mit signifikant weniger anpassbaren Parametern erreicht. Darüber hinaus verdeutlichen unsere Ergebnisse, dass eine einzige gemeinsame bildgenerierende Grundstruktur mit modalitätsspezifischen Anpassungen ausreicht, um einen gemeinsamen Audio-Video-Generator zu erstellen. Unser Quellcode und vortrainierte Modelle werden veröffentlicht.
English
Recent Diffusion Transformers (DiTs) have shown impressive capabilities in generating high-quality single-modality content, including images, videos, and audio. However, it is still under-explored whether the transformer-based diffuser can efficiently denoise the Gaussian noises towards superb multimodal content creation. To bridge this gap, we introduce AV-DiT, a novel and efficient audio-visual diffusion transformer designed to generate high-quality, realistic videos with both visual and audio tracks. To minimize model complexity and computational costs, AV-DiT utilizes a shared DiT backbone pre-trained on image-only data, with only lightweight, newly inserted adapters being trainable. This shared backbone facilitates both audio and video generation. Specifically, the video branch incorporates a trainable temporal attention layer into a frozen pre-trained DiT block for temporal consistency. Additionally, a small number of trainable parameters adapt the image-based DiT block for audio generation. An extra shared DiT block, equipped with lightweight parameters, facilitates feature interaction between audio and visual modalities, ensuring alignment. Extensive experiments on the AIST++ and Landscape datasets demonstrate that AV-DiT achieves state-of-the-art performance in joint audio-visual generation with significantly fewer tunable parameters. Furthermore, our results highlight that a single shared image generative backbone with modality-specific adaptations is sufficient for constructing a joint audio-video generator. Our source code and pre-trained models will be released.

Summary

AI-Generated Summary

PDF170December 8, 2024