JavisDiT++: Geïntegreerde Modellering en Optimalisatie voor Gezamenlijke Audio-Videogeneratie

Samenvatting

AIGC (Artificial Intelligence Generated Content) heeft zich snel uitgebreid van tekst-naar-beeldgeneratie naar hoogwaardige multimodale synthese over video en audio. In deze context is gezamenlijke audio-videogeneratie (JAVG) naar voren gekomen als een fundamentele taak die gesynchroniseerde en semantisch uitgelijnde geluiden en beelden produceert op basis van tekstuele beschrijvingen. Vergeleken met geavanceerde commerciële modellen zoals Veo3 kampen bestaande open-source methoden echter nog steeds met beperkingen in generatiekwaliteit, temporele synchronisatie en afstemming op menselijke voorkeuren. Om deze kloof te overbruggen, presenteert dit artikel JavisDiT++, een beknopt maar krachtig framework voor uniforme modellering en optimalisatie van JAVG. Ten eerste introduceren we een modality-specific mixture-of-experts (MS-MoE) ontwerp dat kruis-modale interactie-effectiviteit mogelijk maakt en tegelijkertijd de generatiekwaliteit per modaal domein verbetert. Vervolgens stellen we een temporal-aligned RoPE (TA-RoPE) strategie voor om expliciete synchronisatie op frameniveau tussen audio- en videotokens te bereiken. Daarnaast ontwikkelen we een audio-video direct preference optimization (AV-DPO) methode om modeloutput af te stemmen op menselijke voorkeuren over kwaliteit, consistentie en synchronisatiedimensies. Gebouwd op Wan2.1-1.3B-T2V behaalt ons model state-of-the-art prestaties met slechts ongeveer 1 miljoen publieke trainingsitems, en overtreft eerdere benaderingen aanzienlijk in zowel kwalitatieve als kwantitatieve evaluaties. Uitgebreide ablatiestudies zijn uitgevoerd om de effectiviteit van onze voorgestelde modules te valideren. Alle code, modellen en datasets zijn vrijgegeven op https://JavisVerse.github.io/JavisDiT2-page.

English

AIGC has rapidly expanded from text-to-image generation toward high-quality multimodal synthesis across video and audio. Within this context, joint audio-video generation (JAVG) has emerged as a fundamental task that produces synchronized and semantically aligned sound and vision from textual descriptions. However, compared with advanced commercial models such as Veo3, existing open-source methods still suffer from limitations in generation quality, temporal synchrony, and alignment with human preferences. To bridge the gap, this paper presents JavisDiT++, a concise yet powerful framework for unified modeling and optimization of JAVG. First, we introduce a modality-specific mixture-of-experts (MS-MoE) design that enables cross-modal interaction efficacy while enhancing single-modal generation quality. Then, we propose a temporal-aligned RoPE (TA-RoPE) strategy to achieve explicit, frame-level synchronization between audio and video tokens. Besides, we develop an audio-video direct preference optimization (AV-DPO) method to align model outputs with human preference across quality, consistency, and synchrony dimensions. Built upon Wan2.1-1.3B-T2V, our model achieves state-of-the-art performance merely with around 1M public training entries, significantly outperforming prior approaches in both qualitative and quantitative evaluations. Comprehensive ablation studies have been conducted to validate the effectiveness of our proposed modules. All the code, model, and dataset are released at https://JavisVerse.github.io/JavisDiT2-page.

JavisDiT++: Geïntegreerde Modellering en Optimalisatie voor Gezamenlijke Audio-Videogeneratie

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

Samenvatting

Support