JavisDiT++: Modelagem e Otimização Unificadas para Geração Conjunta de Áudio e Vídeo

Resumo

A AIGC expandiu-se rapidamente da geração de texto para imagem para a síntese multimodal de alta qualidade abrangendo vídeo e áudio. Neste contexto, a geração conjunta áudio-vídeo (JAVG) emergiu como uma tarefa fundamental que produz som e imagem sincronizados e semanticamente alinhados a partir de descrições textuais. No entanto, comparados com modelos comerciais avançados como o Veo3, os métodos de código aberto existentes ainda apresentam limitações na qualidade de geração, sincronia temporal e alinhamento com as preferências humanas. Para preencher esta lacuna, este artigo apresenta o JavisDiT++, uma estrutura concisa mas poderosa para modelação e otimização unificada de JAVG. Primeiro, introduzimos um design de mistura de especialistas específica por modalidade (MS-MoE) que permite uma eficácia de interação multimodal enquanto melhora a qualidade de geração unimodal. Em seguida, propomos uma estratégia RoPE com alinhamento temporal (TA-RoPE) para alcançar uma sincronização explícita ao nível do fotograma entre os tokens de áudio e vídeo. Além disso, desenvolvemos um método de otimização direta de preferências áudio-vídeo (AV-DPO) para alinhar as saídas do modelo com a preferência humana nas dimensões de qualidade, consistência e sincronia. Construído sobre o Wan2.1-1.3B-T2V, o nosso modelo alcança um desempenho de última geração com apenas cerca de 1 milhão de entradas de treino públicas, superando significativamente as abordagens anteriores em avaliações qualitativas e quantitativas. Foram realizados estudos de ablação abrangentes para validar a eficácia dos nossos módulos propostos. Todo o código, modelo e conjunto de dados estão disponíveis em https://JavisVerse.github.io/JavisDiT2-page.

English

AIGC has rapidly expanded from text-to-image generation toward high-quality multimodal synthesis across video and audio. Within this context, joint audio-video generation (JAVG) has emerged as a fundamental task that produces synchronized and semantically aligned sound and vision from textual descriptions. However, compared with advanced commercial models such as Veo3, existing open-source methods still suffer from limitations in generation quality, temporal synchrony, and alignment with human preferences. To bridge the gap, this paper presents JavisDiT++, a concise yet powerful framework for unified modeling and optimization of JAVG. First, we introduce a modality-specific mixture-of-experts (MS-MoE) design that enables cross-modal interaction efficacy while enhancing single-modal generation quality. Then, we propose a temporal-aligned RoPE (TA-RoPE) strategy to achieve explicit, frame-level synchronization between audio and video tokens. Besides, we develop an audio-video direct preference optimization (AV-DPO) method to align model outputs with human preference across quality, consistency, and synchrony dimensions. Built upon Wan2.1-1.3B-T2V, our model achieves state-of-the-art performance merely with around 1M public training entries, significantly outperforming prior approaches in both qualitative and quantitative evaluations. Comprehensive ablation studies have been conducted to validate the effectiveness of our proposed modules. All the code, model, and dataset are released at https://JavisVerse.github.io/JavisDiT2-page.

JavisDiT++: Modelagem e Otimização Unificadas para Geração Conjunta de Áudio e Vídeo

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

Resumo

Support