JavisDiT : Transformeur de diffusion audio-vidéo conjoint avec synchronisation hiérarchique des priorités spatio-temporelles
JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization
March 30, 2025
Auteurs: Kai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Rongxin Jiang, Jiebo Luo, Hao Fei, Tat-Seng Chua
cs.AI
Résumé
Cet article présente JavisDiT, un nouveau Joint Audio-Video Diffusion Transformer conçu pour la génération synchronisée audio-vidéo (JAVG). Basé sur l'architecture puissante du Diffusion Transformer (DiT), JavisDiT est capable de générer simultanément des contenus audio et vidéo de haute qualité à partir de prompts utilisateurs ouverts. Pour garantir une synchronisation optimale, nous introduisons un mécanisme d'alignement spatio-temporel fin à travers un HiST-Sypo (Hierarchical Spatial-Temporal Synchronized Prior) Estimator. Ce module extrait à la fois des priors globaux et des priors spatio-temporels fins, guidant la synchronisation entre les composants visuels et auditifs. De plus, nous proposons un nouveau benchmark, JavisBench, composé de 10 140 vidéos sonores de haute qualité avec des légendes textuelles, couvrant des scènes diverses et des scénarios complexes du monde réel. Par ailleurs, nous concevons spécifiquement une métrique robuste pour évaluer la synchronisation entre les paires audio-vidéo générées dans des contenus complexes du monde réel. Les résultats expérimentaux démontrent que JavisDiT surpasse significativement les méthodes existantes en assurant à la fois une génération de haute qualité et une synchronisation précise, établissant ainsi une nouvelle référence pour les tâches JAVG. Notre code, modèle et jeu de données seront rendus publics à l'adresse https://javisdit.github.io/.
English
This paper introduces JavisDiT, a novel Joint Audio-Video Diffusion
Transformer designed for synchronized audio-video generation (JAVG). Built upon
the powerful Diffusion Transformer (DiT) architecture, JavisDiT is able to
generate high-quality audio and video content simultaneously from open-ended
user prompts. To ensure optimal synchronization, we introduce a fine-grained
spatio-temporal alignment mechanism through a Hierarchical Spatial-Temporal
Synchronized Prior (HiST-Sypo) Estimator. This module extracts both global and
fine-grained spatio-temporal priors, guiding the synchronization between the
visual and auditory components. Furthermore, we propose a new benchmark,
JavisBench, consisting of 10,140 high-quality text-captioned sounding videos
spanning diverse scenes and complex real-world scenarios. Further, we
specifically devise a robust metric for evaluating the synchronization between
generated audio-video pairs in real-world complex content. Experimental results
demonstrate that JavisDiT significantly outperforms existing methods by
ensuring both high-quality generation and precise synchronization, setting a
new standard for JAVG tasks. Our code, model, and dataset will be made publicly
available at https://javisdit.github.io/.Summary
AI-Generated Summary