ChatPaper.aiChatPaper

AV-DiT: 오디오와 비디오의 결합 생성을 위한 효율적인 오디오-비주얼 디퓨전 트랜스포머

AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation

June 11, 2024
저자: Kai Wang, Shijian Deng, Jing Shi, Dimitrios Hatzinakos, Yapeng Tian
cs.AI

초록

최근 Diffusion Transformer(DiT)는 이미지, 비디오, 오디오를 포함한 고품질 단일 모달리티 콘텐츠 생성에서 인상적인 성능을 보여주었습니다. 그러나 트랜스포머 기반 디퓨저가 우수한 다중 모달리티 콘텐츠 생성을 위해 가우시안 노이즈를 효율적으로 제거할 수 있는지에 대한 연구는 아직 미흡합니다. 이러한 격차를 해소하기 위해, 우리는 고품질의 현실적인 비디오를 시각 및 오디오 트랙과 함께 생성하기 위해 설계된 새로운 효율적인 오디오-비주얼 디퓨전 트랜스포머인 AV-DiT를 소개합니다. 모델 복잡성과 계산 비용을 최소화하기 위해, AV-DiT는 이미지 전용 데이터로 사전 학습된 공유 DiT 백본을 활용하며, 가볍게 삽입된 새로운 어댑터만 학습 가능합니다. 이 공유 백본은 오디오와 비디오 생성을 모두 가능하게 합니다. 구체적으로, 비디오 브랜치는 시간적 일관성을 위해 고정된 사전 학습된 DiT 블록에 학습 가능한 시간적 어텐션 레이어를 통합합니다. 또한, 소수의 학습 가능한 파라미터가 이미지 기반 DiT 블록을 오디오 생성에 적응시킵니다. 경량 파라미터로 구성된 추가 공유 DiT 블록은 오디오와 시각 모달리티 간의 특징 상호작용을 촉진하여 정렬을 보장합니다. AIST++ 및 Landscape 데이터셋에 대한 광범위한 실험을 통해 AV-DiT가 훨씬 적은 튜닝 가능 파라미터로 오디오-비주얼 공동 생성에서 최첨단 성능을 달성함을 입증했습니다. 더 나아가, 우리의 결과는 단일 공유 이미지 생성 백본과 모달리티별 적응만으로도 오디오-비디오 공동 생성기를 구축하는 데 충분함을 강조합니다. 우리의 소스 코드와 사전 학습된 모델은 공개될 예정입니다.
English
Recent Diffusion Transformers (DiTs) have shown impressive capabilities in generating high-quality single-modality content, including images, videos, and audio. However, it is still under-explored whether the transformer-based diffuser can efficiently denoise the Gaussian noises towards superb multimodal content creation. To bridge this gap, we introduce AV-DiT, a novel and efficient audio-visual diffusion transformer designed to generate high-quality, realistic videos with both visual and audio tracks. To minimize model complexity and computational costs, AV-DiT utilizes a shared DiT backbone pre-trained on image-only data, with only lightweight, newly inserted adapters being trainable. This shared backbone facilitates both audio and video generation. Specifically, the video branch incorporates a trainable temporal attention layer into a frozen pre-trained DiT block for temporal consistency. Additionally, a small number of trainable parameters adapt the image-based DiT block for audio generation. An extra shared DiT block, equipped with lightweight parameters, facilitates feature interaction between audio and visual modalities, ensuring alignment. Extensive experiments on the AIST++ and Landscape datasets demonstrate that AV-DiT achieves state-of-the-art performance in joint audio-visual generation with significantly fewer tunable parameters. Furthermore, our results highlight that a single shared image generative backbone with modality-specific adaptations is sufficient for constructing a joint audio-video generator. Our source code and pre-trained models will be released.

Summary

AI-Generated Summary

PDF170December 8, 2024