ChatPaper.aiChatPaper

JavisDiT : Transformeur de diffusion audio-vidéo conjoint avec synchronisation hiérarchique des priorités spatio-temporelles

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

March 30, 2025
Auteurs: Kai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Rongxin Jiang, Jiebo Luo, Hao Fei, Tat-Seng Chua
cs.AI

Résumé

Cet article présente JavisDiT, un nouveau Joint Audio-Video Diffusion Transformer conçu pour la génération synchronisée audio-vidéo (JAVG). Basé sur l'architecture puissante du Diffusion Transformer (DiT), JavisDiT est capable de générer simultanément des contenus audio et vidéo de haute qualité à partir de prompts utilisateurs ouverts. Pour garantir une synchronisation optimale, nous introduisons un mécanisme d'alignement spatio-temporel fin à travers un HiST-Sypo (Hierarchical Spatial-Temporal Synchronized Prior) Estimator. Ce module extrait à la fois des priors globaux et des priors spatio-temporels fins, guidant la synchronisation entre les composants visuels et auditifs. De plus, nous proposons un nouveau benchmark, JavisBench, composé de 10 140 vidéos sonores de haute qualité avec des légendes textuelles, couvrant des scènes diverses et des scénarios complexes du monde réel. Par ailleurs, nous concevons spécifiquement une métrique robuste pour évaluer la synchronisation entre les paires audio-vidéo générées dans des contenus complexes du monde réel. Les résultats expérimentaux démontrent que JavisDiT surpasse significativement les méthodes existantes en assurant à la fois une génération de haute qualité et une synchronisation précise, établissant ainsi une nouvelle référence pour les tâches JAVG. Notre code, modèle et jeu de données seront rendus publics à l'adresse https://javisdit.github.io/.
English
This paper introduces JavisDiT, a novel Joint Audio-Video Diffusion Transformer designed for synchronized audio-video generation (JAVG). Built upon the powerful Diffusion Transformer (DiT) architecture, JavisDiT is able to generate high-quality audio and video content simultaneously from open-ended user prompts. To ensure optimal synchronization, we introduce a fine-grained spatio-temporal alignment mechanism through a Hierarchical Spatial-Temporal Synchronized Prior (HiST-Sypo) Estimator. This module extracts both global and fine-grained spatio-temporal priors, guiding the synchronization between the visual and auditory components. Furthermore, we propose a new benchmark, JavisBench, consisting of 10,140 high-quality text-captioned sounding videos spanning diverse scenes and complex real-world scenarios. Further, we specifically devise a robust metric for evaluating the synchronization between generated audio-video pairs in real-world complex content. Experimental results demonstrate that JavisDiT significantly outperforms existing methods by ensuring both high-quality generation and precise synchronization, setting a new standard for JAVG tasks. Our code, model, and dataset will be made publicly available at https://javisdit.github.io/.

Summary

AI-Generated Summary

PDF544April 4, 2025