JavisDiT: Совместный аудио-видео диффузионный трансформер с иерархической синхронизацией пространственно-временных приоритетов
JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization
March 30, 2025
Авторы: Kai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Rongxin Jiang, Jiebo Luo, Hao Fei, Tat-Seng Chua
cs.AI
Аннотация
В данной статье представлен JavisDiT — новый Joint Audio-Video Diffusion Transformer, разработанный для синхронизированной генерации аудио и видео (JAVG). Основанный на мощной архитектуре Diffusion Transformer (DiT), JavisDiT способен одновременно генерировать высококачественные аудио- и видеоконтент на основе открытых пользовательских запросов. Для обеспечения оптимальной синхронизации мы вводим механизм тонкого пространственно-временного выравнивания с помощью иерархического оценщика пространственно-временных синхронизированных приоритетов (HiST-Sypo). Этот модуль извлекает как глобальные, так и детализированные пространственно-временные приоритеты, направляя синхронизацию между визуальными и аудиальными компонентами. Кроме того, мы предлагаем новый бенчмарк, JavisBench, состоящий из 10 140 высококачественных видеороликов с текстовыми описаниями, охватывающих разнообразные сцены и сложные реальные сценарии. Также мы разработали надежную метрику для оценки синхронизации между сгенерированными аудио-видео парами в сложном реальном контенте. Результаты экспериментов показывают, что JavisDiT значительно превосходит существующие методы, обеспечивая как высокое качество генерации, так и точную синхронизацию, устанавливая новый стандарт для задач JAVG. Наш код, модель и набор данных будут доступны по адресу https://javisdit.github.io/.
English
This paper introduces JavisDiT, a novel Joint Audio-Video Diffusion
Transformer designed for synchronized audio-video generation (JAVG). Built upon
the powerful Diffusion Transformer (DiT) architecture, JavisDiT is able to
generate high-quality audio and video content simultaneously from open-ended
user prompts. To ensure optimal synchronization, we introduce a fine-grained
spatio-temporal alignment mechanism through a Hierarchical Spatial-Temporal
Synchronized Prior (HiST-Sypo) Estimator. This module extracts both global and
fine-grained spatio-temporal priors, guiding the synchronization between the
visual and auditory components. Furthermore, we propose a new benchmark,
JavisBench, consisting of 10,140 high-quality text-captioned sounding videos
spanning diverse scenes and complex real-world scenarios. Further, we
specifically devise a robust metric for evaluating the synchronization between
generated audio-video pairs in real-world complex content. Experimental results
demonstrate that JavisDiT significantly outperforms existing methods by
ensuring both high-quality generation and precise synchronization, setting a
new standard for JAVG tasks. Our code, model, and dataset will be made publicly
available at https://javisdit.github.io/.Summary
AI-Generated Summary