ChatPaper.aiChatPaper

JavisDiT++: 통합 오디오-비디오 생성 관리를 위한 통합 모델링 및 최적화

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

February 22, 2026
저자: Kai Liu, Yanhao Zheng, Kai Wang, Shengqiong Wu, Rongjunchen Zhang, Jiebo Luo, Dimitrios Hatzinakos, Ziwei Liu, Hao Fei, Tat-Seng Chua
cs.AI

초록

AIGC는 텍스트-이미지 생성에서 비디오 및 오디오를 아우르는 고품질 멀티모달 합성으로 빠르게 확장되고 있습니다. 이러한 맥락에서 오디오-비디오 연동 생성(JAVG)은 텍스트 설명으로부터 동기화되고 의미론적으로 정렬된 사운드와 영상을 생성하는 핵심 과제로 부상했습니다. 그러나 Veo3와 같은 고도화된 상용 모델에 비해, 기존 오픈소스 방법론들은 생성 품질, 시간적 동기화, 인간 선호도 정합성 측면에서 여전히 한계를 보입니다. 이러한 격차를 해소하기 위해 본 논문은 JAVG의 통합 모델링 및 최적화를 위한 간결하면서도 강력한 프레임워크인 JavisDiT++를 제안합니다. 첫째, 단일 모달리티 생성 품질을 향상시키면서 크로스모달 상호작용 효율을 가능하게 하는 모달리티 특화 전문가 혼합(MS-MoE) 구조를 도입합니다. 둘째, 오디오와 비디오 토큰 간 명시적 프레임 수준 동기화를 달성하기 위한 시간 정렬 RoPE(TA-RoPE) 전략을 제안합니다. 또한 품질, 일관성, 동기화 차원에서 모델 출력을 인간 선호도에 정렬시키는 오디오-비디오 직접 선호도 최적화(AV-DPO) 방법을 개발했습니다. Wan2.1-1.3B-T2V를 기반으로 구축된 우리 모델은 약 100만 개의 공개 학습 데이터만으로도 최첨단 성능을 달성하여 정성적 및 정량적 평가 모두에서 기존 접근법을 크게 능가합니다. 제안된 모듈들의 효과를 입증하기 위한 포괄적인 ablation 연구를 수행했습니다. 모든 코드, 모델 및 데이터셋은 https://JavisVerse.github.io/JavisDiT2-page에서 공개됩니다.
English
AIGC has rapidly expanded from text-to-image generation toward high-quality multimodal synthesis across video and audio. Within this context, joint audio-video generation (JAVG) has emerged as a fundamental task that produces synchronized and semantically aligned sound and vision from textual descriptions. However, compared with advanced commercial models such as Veo3, existing open-source methods still suffer from limitations in generation quality, temporal synchrony, and alignment with human preferences. To bridge the gap, this paper presents JavisDiT++, a concise yet powerful framework for unified modeling and optimization of JAVG. First, we introduce a modality-specific mixture-of-experts (MS-MoE) design that enables cross-modal interaction efficacy while enhancing single-modal generation quality. Then, we propose a temporal-aligned RoPE (TA-RoPE) strategy to achieve explicit, frame-level synchronization between audio and video tokens. Besides, we develop an audio-video direct preference optimization (AV-DPO) method to align model outputs with human preference across quality, consistency, and synchrony dimensions. Built upon Wan2.1-1.3B-T2V, our model achieves state-of-the-art performance merely with around 1M public training entries, significantly outperforming prior approaches in both qualitative and quantitative evaluations. Comprehensive ablation studies have been conducted to validate the effectiveness of our proposed modules. All the code, model, and dataset are released at https://JavisVerse.github.io/JavisDiT2-page.
PDF102February 27, 2026