JavisDiT++: Modellazione e Ottimizzazione Unificata per la Generazione Congiunta Audio-Video

Abstract

L'AIGC si è rapidamente ampliato dalla generazione testo-immagine verso una sintesi multimodale di alta qualità che include video e audio. In questo contesto, la generazione congiunta audio-video (JAVG) è emersa come un compito fondamentale che produce suono e immagini sincronizzati e semanticamente allineati a partire da descrizioni testuali. Tuttavia, rispetto a modelli commerciali avanzati come Veo3, i metodi open-source esistenti presentano ancora limitazioni nella qualità della generazione, nella sincronia temporale e nell'allineamento con le preferenze umane. Per colmare questa lacuna, questo articolo presenta JavisDiT++, un framework conciso ma potente per la modellazione e l'ottimizzazione unificata della JAVG. In primo luogo, introduciamo un design Mixture-of-Experts specifico per modalità (MS-MoE) che consente un'efficace interazione cross-modale migliorando allo stesso tempo la qualità della generazione single-modale. Successivamente, proponiamo una strategia RoPE alineata temporalmente (TA-RoPE) per ottenere una sincronizzazione esplicita a livello di frame tra i token audio e video. Inoltre, sviluppiamo un metodo di ottimizzazione diretta delle preferenze audio-video (AV-DPO) per allineare gli output del modello con le preferenze umane nelle dimensioni di qualità, coerenza e sincronia. Basato su Wan2.1-1.3B-T2V, il nostro modello raggiunge prestazioni all'avanguardia con soli circa 1 milione di entry di training pubblico, superando significativamente gli approcci precedenti sia nelle valutazioni qualitative che quantitative. Sono stati condotti studi di ablazione completi per convalidare l'efficacia dei moduli da noi proposti. Tutto il codice, il modello e il dataset sono rilasciati su https://JavisVerse.github.io/JavisDiT2-page.

English

AIGC has rapidly expanded from text-to-image generation toward high-quality multimodal synthesis across video and audio. Within this context, joint audio-video generation (JAVG) has emerged as a fundamental task that produces synchronized and semantically aligned sound and vision from textual descriptions. However, compared with advanced commercial models such as Veo3, existing open-source methods still suffer from limitations in generation quality, temporal synchrony, and alignment with human preferences. To bridge the gap, this paper presents JavisDiT++, a concise yet powerful framework for unified modeling and optimization of JAVG. First, we introduce a modality-specific mixture-of-experts (MS-MoE) design that enables cross-modal interaction efficacy while enhancing single-modal generation quality. Then, we propose a temporal-aligned RoPE (TA-RoPE) strategy to achieve explicit, frame-level synchronization between audio and video tokens. Besides, we develop an audio-video direct preference optimization (AV-DPO) method to align model outputs with human preference across quality, consistency, and synchrony dimensions. Built upon Wan2.1-1.3B-T2V, our model achieves state-of-the-art performance merely with around 1M public training entries, significantly outperforming prior approaches in both qualitative and quantitative evaluations. Comprehensive ablation studies have been conducted to validate the effectiveness of our proposed modules. All the code, model, and dataset are released at https://JavisVerse.github.io/JavisDiT2-page.

JavisDiT++: Modellazione e Ottimizzazione Unificata per la Generazione Congiunta Audio-Video

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

Abstract

Support