JavisDiT: 계층적 시공간 사전 동기화를 갖춘 결합형 오디오-비디오 디퓨전 트랜스포머
JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization
March 30, 2025
저자: Kai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Rongxin Jiang, Jiebo Luo, Hao Fei, Tat-Seng Chua
cs.AI
초록
본 논문은 동기화된 오디오-비디오 생성(JAVG)을 위해 설계된 새로운 Joint Audio-Video Diffusion Transformer(JavisDiT)를 소개합니다. 강력한 Diffusion Transformer(DiT) 아키텍처를 기반으로 구축된 JavisDiT는 개방형 사용자 프롬프트로부터 고품질의 오디오와 비디오 콘텐츠를 동시에 생성할 수 있습니다. 최적의 동기화를 보장하기 위해, 우리는 Hierarchical Spatial-Temporal Synchronized Prior(HiST-Sypo) Estimator를 통해 세밀한 시공간 정렬 메커니즘을 도입했습니다. 이 모듈은 전역적 및 세밀한 시공간 사전 정보를 추출하여 시각적 요소와 청각적 요소 간의 동기화를 유도합니다. 또한, 우리는 다양한 장면과 복잡한 실제 시나리오를 아우르는 10,140개의 고품질 텍스트 캡션이 달린 사운드 비디오로 구성된 새로운 벤치마크인 JavisBench를 제안합니다. 더 나아가, 우리는 실제 복잡한 콘텐츠에서 생성된 오디오-비디오 쌍 간의 동기화를 평가하기 위한 강력한 메트릭을 특별히 고안했습니다. 실험 결과는 JavisDiT가 고품질 생성과 정확한 동기화를 모두 보장함으로써 기존 방법들을 크게 능가하며, JAVG 작업에 대한 새로운 표준을 제시함을 보여줍니다. 우리의 코드, 모델, 그리고 데이터셋은 https://javisdit.github.io/에서 공개될 예정입니다.
English
This paper introduces JavisDiT, a novel Joint Audio-Video Diffusion
Transformer designed for synchronized audio-video generation (JAVG). Built upon
the powerful Diffusion Transformer (DiT) architecture, JavisDiT is able to
generate high-quality audio and video content simultaneously from open-ended
user prompts. To ensure optimal synchronization, we introduce a fine-grained
spatio-temporal alignment mechanism through a Hierarchical Spatial-Temporal
Synchronized Prior (HiST-Sypo) Estimator. This module extracts both global and
fine-grained spatio-temporal priors, guiding the synchronization between the
visual and auditory components. Furthermore, we propose a new benchmark,
JavisBench, consisting of 10,140 high-quality text-captioned sounding videos
spanning diverse scenes and complex real-world scenarios. Further, we
specifically devise a robust metric for evaluating the synchronization between
generated audio-video pairs in real-world complex content. Experimental results
demonstrate that JavisDiT significantly outperforms existing methods by
ensuring both high-quality generation and precise synchronization, setting a
new standard for JAVG tasks. Our code, model, and dataset will be made publicly
available at https://javisdit.github.io/.Summary
AI-Generated Summary