ChatPaper.aiChatPaper

JavisDiT: Transformador de Difusión Conjunta Audio-Video con Sincronización Jerárquica de Prioridades Espacio-Temporales

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

March 30, 2025
Autores: Kai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Rongxin Jiang, Jiebo Luo, Hao Fei, Tat-Seng Chua
cs.AI

Resumen

Este artículo presenta JavisDiT, un novedoso Transformer de Difusión Conjunta Audio-Vídeo diseñado para la generación sincronizada de audio y vídeo (JAVG). Basado en la potente arquitectura del Transformer de Difusión (DiT), JavisDiT es capaz de generar contenido de audio y vídeo de alta calidad simultáneamente a partir de indicaciones abiertas del usuario. Para garantizar una sincronización óptima, introducimos un mecanismo de alineación espacio-temporal detallada a través de un Estimador de Prior Sincronizado Jerárquico Espacio-Temporal (HiST-Sypo). Este módulo extrae tanto prioridades globales como detalladas espacio-temporales, guiando la sincronización entre los componentes visuales y auditivos. Además, proponemos un nuevo punto de referencia, JavisBench, que consta de 10,140 vídeos sonoros de alta calidad con subtítulos de texto que abarcan diversas escenas y escenarios complejos del mundo real. Asimismo, diseñamos específicamente una métrica robusta para evaluar la sincronización entre pares de audio-vídeo generados en contenido complejo del mundo real. Los resultados experimentales demuestran que JavisDiT supera significativamente a los métodos existentes al garantizar tanto una generación de alta calidad como una sincronización precisa, estableciendo un nuevo estándar para las tareas de JAVG. Nuestro código, modelo y conjunto de datos estarán disponibles públicamente en https://javisdit.github.io/.
English
This paper introduces JavisDiT, a novel Joint Audio-Video Diffusion Transformer designed for synchronized audio-video generation (JAVG). Built upon the powerful Diffusion Transformer (DiT) architecture, JavisDiT is able to generate high-quality audio and video content simultaneously from open-ended user prompts. To ensure optimal synchronization, we introduce a fine-grained spatio-temporal alignment mechanism through a Hierarchical Spatial-Temporal Synchronized Prior (HiST-Sypo) Estimator. This module extracts both global and fine-grained spatio-temporal priors, guiding the synchronization between the visual and auditory components. Furthermore, we propose a new benchmark, JavisBench, consisting of 10,140 high-quality text-captioned sounding videos spanning diverse scenes and complex real-world scenarios. Further, we specifically devise a robust metric for evaluating the synchronization between generated audio-video pairs in real-world complex content. Experimental results demonstrate that JavisDiT significantly outperforms existing methods by ensuring both high-quality generation and precise synchronization, setting a new standard for JAVG tasks. Our code, model, and dataset will be made publicly available at https://javisdit.github.io/.

Summary

AI-Generated Summary

PDF544April 4, 2025