JavisDiT++: Vereinheitlichte Modellierung und Optimierung für die gemeinsame Audio-Video-Generierung

Zusammenfassung

AIGC hat sich rasant von der Text-zu-Bild-Generierung hin zur hochwertigen multimodalen Synthese über Video und Audio erweitert. In diesem Kontext hat sich die gemeinsame Audio-Video-Generierung (JAVG) als grundlegende Aufgabe etabliert, die synchronisierte und semantisch abgestimmte Ton- und Bildinhalte aus Textbeschreibungen erzeugt. Im Vergleich zu fortschrittlichen kommerziellen Modellen wie Veo3 leiden bestehende Open-Source-Methoden jedoch weiterhin unter Einschränkungen bei Generierungsqualität, zeitlicher Synchronizität und Übereinstimmung mit menschlichen Präferenzen. Um diese Lücke zu schließen, stellt dieses Papier JavisDiT++ vor, einen prägnanten yet leistungsstarken Framework für die vereinheitlichte Modellierung und Optimierung von JAVG. Zunächst führen wir ein modalitätsspezifisches Mixture-of-Experts-Design (MS-MoE) ein, das die Effizienz der cross-modalen Interaktion ermöglicht und gleichzeitig die Einzelmodalitäts-Generierungsqualität verbessert. Anschließend schlagen wir eine temporal-aligned RoPE-Strategie (TA-RoPE) vor, um eine explizite Synchronisierung auf Frame-Ebene zwischen Audio- und Video-Token zu erreichen. Zudem entwickeln wir eine Audio-Video Direct Preference Optimization-Methode (AV-DPO), um die Modellausgaben mit menschlichen Präferenzen in den Dimensionen Qualität, Konsistenz und Synchronizität abzustimmen. Aufbauend auf Wan2.1-1.3B-T2V erreicht unser Modell mit nur etwa 1 Mio. öffentlichen Trainingsdatensätzen state-of-the-art Leistungen und übertrifft bisherige Ansätze in qualitativen und quantitativen Bewertungen deutlich. Umfassende Ablationsstudien wurden durchgeführt, um die Wirksamkeit unserer vorgeschlagenen Module zu validieren. Der gesamte Code, das Modell und der Datensatz sind unter https://JavisVerse.github.io/JavisDiT2-page veröffentlicht.

English

AIGC has rapidly expanded from text-to-image generation toward high-quality multimodal synthesis across video and audio. Within this context, joint audio-video generation (JAVG) has emerged as a fundamental task that produces synchronized and semantically aligned sound and vision from textual descriptions. However, compared with advanced commercial models such as Veo3, existing open-source methods still suffer from limitations in generation quality, temporal synchrony, and alignment with human preferences. To bridge the gap, this paper presents JavisDiT++, a concise yet powerful framework for unified modeling and optimization of JAVG. First, we introduce a modality-specific mixture-of-experts (MS-MoE) design that enables cross-modal interaction efficacy while enhancing single-modal generation quality. Then, we propose a temporal-aligned RoPE (TA-RoPE) strategy to achieve explicit, frame-level synchronization between audio and video tokens. Besides, we develop an audio-video direct preference optimization (AV-DPO) method to align model outputs with human preference across quality, consistency, and synchrony dimensions. Built upon Wan2.1-1.3B-T2V, our model achieves state-of-the-art performance merely with around 1M public training entries, significantly outperforming prior approaches in both qualitative and quantitative evaluations. Comprehensive ablation studies have been conducted to validate the effectiveness of our proposed modules. All the code, model, and dataset are released at https://JavisVerse.github.io/JavisDiT2-page.

JavisDiT++: Vereinheitlichte Modellierung und Optimierung für die gemeinsame Audio-Video-Generierung

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

Zusammenfassung

Support