JavisDiT: Transformador de Difusão Conjunta Áudio-Vídeo com Sincronização Hierárquica de Prioridades Espaço-Temporais

Resumo

Este artigo apresenta o JavisDiT, um novo Joint Audio-Video Diffusion Transformer projetado para geração sincronizada de áudio e vídeo (JAVG). Baseado na poderosa arquitetura Diffusion Transformer (DiT), o JavisDiT é capaz de gerar conteúdo de áudio e vídeo de alta qualidade simultaneamente a partir de prompts abertos do usuário. Para garantir uma sincronização ideal, introduzimos um mecanismo de alinhamento espaço-temporal refinado por meio de um Hierarchical Spatial-Temporal Synchronized Prior (HiST-Sypo) Estimator. Este módulo extrai prioris espaço-temporais tanto globais quanto refinadas, orientando a sincronização entre os componentes visuais e auditivos. Além disso, propomos um novo benchmark, o JavisBench, composto por 10.140 vídeos sonoros de alta qualidade com legendas de texto, abrangendo diversas cenas e cenários complexos do mundo real. Adicionalmente, desenvolvemos especificamente uma métrica robusta para avaliar a sincronização entre pares de áudio e vídeo gerados em conteúdos complexos do mundo real. Os resultados experimentais demonstram que o JavisDiT supera significativamente os métodos existentes, garantindo tanto a geração de alta qualidade quanto a sincronização precisa, estabelecendo um novo padrão para tarefas de JAVG. Nosso código, modelo e conjunto de dados estarão publicamente disponíveis em https://javisdit.github.io/.

English

This paper introduces JavisDiT, a novel Joint Audio-Video Diffusion Transformer designed for synchronized audio-video generation (JAVG). Built upon the powerful Diffusion Transformer (DiT) architecture, JavisDiT is able to generate high-quality audio and video content simultaneously from open-ended user prompts. To ensure optimal synchronization, we introduce a fine-grained spatio-temporal alignment mechanism through a Hierarchical Spatial-Temporal Synchronized Prior (HiST-Sypo) Estimator. This module extracts both global and fine-grained spatio-temporal priors, guiding the synchronization between the visual and auditory components. Furthermore, we propose a new benchmark, JavisBench, consisting of 10,140 high-quality text-captioned sounding videos spanning diverse scenes and complex real-world scenarios. Further, we specifically devise a robust metric for evaluating the synchronization between generated audio-video pairs in real-world complex content. Experimental results demonstrate that JavisDiT significantly outperforms existing methods by ensuring both high-quality generation and precise synchronization, setting a new standard for JAVG tasks. Our code, model, and dataset will be made publicly available at https://javisdit.github.io/.

JavisDiT: Transformador de Difusão Conjunta Áudio-Vídeo com Sincronização Hierárquica de Prioridades Espaço-Temporais

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Resumo

Support