JavisDiT++:音声・映像統合生成のための統一モデリングと最適化
JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation
February 22, 2026
著者: Kai Liu, Yanhao Zheng, Kai Wang, Shengqiong Wu, Rongjunchen Zhang, Jiebo Luo, Dimitrios Hatzinakos, Ziwei Liu, Hao Fei, Tat-Seng Chua
cs.AI
要旨
AIGCは、テキストから画像への生成から、映像や音声を含む高品質なマルチモーダル合成へと急速に拡大している。この文脈において、音声と映像の統合生成(JAVG)は、テキスト記述から同期が取れ意味的に整合した音と映像を生成する基礎的なタスクとして登場した。しかし、Veo3のような先進的な商用モデルと比較すると、既存のオープンソース手法は、生成品質、時間的同期性、人間の嗜好との整合性において依然として限界に直面している。このギャップを埋めるため、本論文はJAVGの統一的モデリングと最適化のための簡潔かつ強力なフレームワークであるJavisDiT++を提案する。まず、モダリティ固有のMixture-of-Experts(MS-MoE)設計を導入し、単一モーダルの生成品質を向上させながら、クロスモーダル相互作用の効率を可能にする。次に、音声トークンと映像トークン間の明示的かつフレームレベルの同期を実現するための時間整合RoPE(TA-RoPE)戦略を提案する。さらに、品質、一貫性、同期性の次元においてモデル出力を人間の嗜好に合わせるための音声-映像直接嗜好最適化(AV-DPO)手法を開発する。Wan2.1-1.3B-T2Vを基盤として構築された我々のモデルは、約100万の公開トレーニングデータのみで、質的および量的評価の両方において従来のアプローチを大幅に上回る、最先端の性能を達成する。提案モジュールの有効性を検証するために包括的なアブレーション研究が実施された。全てのコード、モデル、データセットはhttps://JavisVerse.github.io/JavisDiT2-page で公開されている。
English
AIGC has rapidly expanded from text-to-image generation toward high-quality multimodal synthesis across video and audio. Within this context, joint audio-video generation (JAVG) has emerged as a fundamental task that produces synchronized and semantically aligned sound and vision from textual descriptions. However, compared with advanced commercial models such as Veo3, existing open-source methods still suffer from limitations in generation quality, temporal synchrony, and alignment with human preferences. To bridge the gap, this paper presents JavisDiT++, a concise yet powerful framework for unified modeling and optimization of JAVG. First, we introduce a modality-specific mixture-of-experts (MS-MoE) design that enables cross-modal interaction efficacy while enhancing single-modal generation quality. Then, we propose a temporal-aligned RoPE (TA-RoPE) strategy to achieve explicit, frame-level synchronization between audio and video tokens. Besides, we develop an audio-video direct preference optimization (AV-DPO) method to align model outputs with human preference across quality, consistency, and synchrony dimensions. Built upon Wan2.1-1.3B-T2V, our model achieves state-of-the-art performance merely with around 1M public training entries, significantly outperforming prior approaches in both qualitative and quantitative evaluations. Comprehensive ablation studies have been conducted to validate the effectiveness of our proposed modules. All the code, model, and dataset are released at https://JavisVerse.github.io/JavisDiT2-page.