JavisDiT++: Modelado y Optimización Unificados para la Generación Conjunta de Audio y Video

Resumen

La AIGC se ha expandido rápidamente desde la generación de texto a imagen hacia la síntesis multimodal de alta calidad que abarca video y audio. En este contexto, la generación conjunta de audio y video (JAVG) ha surgido como una tarea fundamental que produce sonido e imagen sincronizados y semánticamente alineados a partir de descripciones textuales. Sin embargo, en comparación con modelos comerciales avanzados como Veo3, los métodos de código abierto existentes aún adolecen de limitaciones en la calidad de generación, la sincronía temporal y la alineación con las preferencias humanas. Para cerrar esta brecha, este artículo presenta JavisDiT++, un marco conciso pero potente para el modelado y optimización unificados de JAVG. En primer lugar, introducimos un diseño de mezcla de expertos por modalidad (MS-MoE) que permite una interacción eficaz entre modalidades mientras mejora la calidad de la generación unimodal. Luego, proponemos una estrategia de RoPE alineado temporalmente (TA-RoPE) para lograr una sincronización explícita a nivel de fotograma entre los tokens de audio y video. Además, desarrollamos un método de optimización directa de preferencias para audio-video (AV-DPO) para alinear las salidas del modelo con la preferencia humana en las dimensiones de calidad, consistencia y sincronía. Construido sobre Wan2.1-1.3B-T2V, nuestro modelo alcanza un rendimiento de vanguardia con apenas alrededor de 1 millón de entradas de entrenamiento público, superando significativamente a enfoques previos en evaluaciones tanto cualitativas como cuantitativas. Se han realizado exhaustivos estudios de ablación para validar la efectividad de nuestros módulos propuestos. Todo el código, modelo y conjunto de datos se publican en https://JavisVerse.github.io/JavisDiT2-page.

English

AIGC has rapidly expanded from text-to-image generation toward high-quality multimodal synthesis across video and audio. Within this context, joint audio-video generation (JAVG) has emerged as a fundamental task that produces synchronized and semantically aligned sound and vision from textual descriptions. However, compared with advanced commercial models such as Veo3, existing open-source methods still suffer from limitations in generation quality, temporal synchrony, and alignment with human preferences. To bridge the gap, this paper presents JavisDiT++, a concise yet powerful framework for unified modeling and optimization of JAVG. First, we introduce a modality-specific mixture-of-experts (MS-MoE) design that enables cross-modal interaction efficacy while enhancing single-modal generation quality. Then, we propose a temporal-aligned RoPE (TA-RoPE) strategy to achieve explicit, frame-level synchronization between audio and video tokens. Besides, we develop an audio-video direct preference optimization (AV-DPO) method to align model outputs with human preference across quality, consistency, and synchrony dimensions. Built upon Wan2.1-1.3B-T2V, our model achieves state-of-the-art performance merely with around 1M public training entries, significantly outperforming prior approaches in both qualitative and quantitative evaluations. Comprehensive ablation studies have been conducted to validate the effectiveness of our proposed modules. All the code, model, and dataset are released at https://JavisVerse.github.io/JavisDiT2-page.

JavisDiT++: Modelado y Optimización Unificados para la Generación Conjunta de Audio y Video

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

Resumen

Support