JavisDiT: Gemeinsamer Audio-Video-Diffusionstransformator mit hierarchischer räumlich-zeitlicher Prioritätssynchronisation
JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization
March 30, 2025
Autoren: Kai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Rongxin Jiang, Jiebo Luo, Hao Fei, Tat-Seng Chua
cs.AI
Zusammenfassung
Dieses Paper stellt JavisDiT vor, einen neuartigen Joint Audio-Video Diffusion Transformer, der für die synchronisierte Audio-Video-Generierung (JAVG) entwickelt wurde. Basierend auf der leistungsstarken Diffusion Transformer (DiT)-Architektur ist JavisDiT in der Lage, hochwertige Audio- und Videoinhalte gleichzeitig aus offenen Benutzeranfragen zu generieren. Um eine optimale Synchronisation zu gewährleisten, führen wir einen feinkörnigen raumzeitlichen Ausrichtungsmechanismus durch einen Hierarchical Spatial-Temporal Synchronized Prior (HiST-Sypo) Estimator ein. Dieses Modul extrahiert sowohl globale als auch feinkörnige raumzeitliche Prioritäten, die die Synchronisation zwischen den visuellen und auditiven Komponenten steuern. Darüber hinaus schlagen wir einen neuen Benchmark, JavisBench, vor, der aus 10.140 hochwertigen, textbeschrifteten Videos mit Ton besteht, die vielfältige Szenen und komplexe reale Szenarien abdecken. Zusätzlich entwickeln wir speziell eine robuste Metrik zur Bewertung der Synchronisation zwischen generierten Audio-Video-Paaren in komplexen realen Inhalten. Experimentelle Ergebnisse zeigen, dass JavisDiT bestehende Methoden deutlich übertrifft, indem es sowohl eine hochwertige Generierung als auch eine präzise Synchronisation sicherstellt und damit einen neuen Standard für JAVG-Aufgaben setzt. Unser Code, Modell und Datensatz werden unter https://javisdit.github.io/ öffentlich zugänglich gemacht.
English
This paper introduces JavisDiT, a novel Joint Audio-Video Diffusion
Transformer designed for synchronized audio-video generation (JAVG). Built upon
the powerful Diffusion Transformer (DiT) architecture, JavisDiT is able to
generate high-quality audio and video content simultaneously from open-ended
user prompts. To ensure optimal synchronization, we introduce a fine-grained
spatio-temporal alignment mechanism through a Hierarchical Spatial-Temporal
Synchronized Prior (HiST-Sypo) Estimator. This module extracts both global and
fine-grained spatio-temporal priors, guiding the synchronization between the
visual and auditory components. Furthermore, we propose a new benchmark,
JavisBench, consisting of 10,140 high-quality text-captioned sounding videos
spanning diverse scenes and complex real-world scenarios. Further, we
specifically devise a robust metric for evaluating the synchronization between
generated audio-video pairs in real-world complex content. Experimental results
demonstrate that JavisDiT significantly outperforms existing methods by
ensuring both high-quality generation and precise synchronization, setting a
new standard for JAVG tasks. Our code, model, and dataset will be made publicly
available at https://javisdit.github.io/.