JavisDiT++: Единое моделирование и оптимизация для совместного генеративного аудиовизуального синтеза

Аннотация

AIGC быстро расширилась от генерации изображений по тексту до высококачественного мультимодального синтеза, охватывающего видео и аудио. В этом контексте совместная генерация аудио и видео (JAVG) стала фундаментальной задачей, которая производит синхронизированные и семантически согласованные звук и изображение из текстовых описаний. Однако по сравнению с передовыми коммерческими моделями, такими как Veo3, существующие открытые методы все еще страдают от ограничений в качестве генерации, временной синхронности и соответствии человеческим предпочтениям. Чтобы сократить этот разрыв, данная статья представляет JavisDiT++, краткую, но мощную структуру для унифицированного моделирования и оптимизации JAVG. Во-первых, мы представляем модуль Mixture-of-Experts для модальностей (MS-MoE), который обеспечивает эффективность кросс-модального взаимодействия, одновременно повышая качество одномодальной генерации. Затем мы предлагаем стратегию временно-выровненного RoPE (TA-RoPE) для достижения явной синхронизации на уровне кадров между аудио- и видео-токенами. Кроме того, мы разрабатываем метод прямой оптимизации предпочтений для аудио-видео (AV-DPO), чтобы согласовать выходные данные модели с человеческими предпочтениями по измерениям качества, согласованности и синхронности. Построенная на основе Wan2.1-1.3B-T2V, наша модель достигает наилучших результатов, используя всего около 1 миллиона публичных обучающих примеров, значительно превосходя предыдущие подходы как в качественных, так и в количественных оценках. Проведены всесторонние аблиционные исследования для проверки эффективности предложенных модулей. Весь код, модель и набор данных опубликованы по адресу https://JavisVerse.github.io/JavisDiT2-page.

English

AIGC has rapidly expanded from text-to-image generation toward high-quality multimodal synthesis across video and audio. Within this context, joint audio-video generation (JAVG) has emerged as a fundamental task that produces synchronized and semantically aligned sound and vision from textual descriptions. However, compared with advanced commercial models such as Veo3, existing open-source methods still suffer from limitations in generation quality, temporal synchrony, and alignment with human preferences. To bridge the gap, this paper presents JavisDiT++, a concise yet powerful framework for unified modeling and optimization of JAVG. First, we introduce a modality-specific mixture-of-experts (MS-MoE) design that enables cross-modal interaction efficacy while enhancing single-modal generation quality. Then, we propose a temporal-aligned RoPE (TA-RoPE) strategy to achieve explicit, frame-level synchronization between audio and video tokens. Besides, we develop an audio-video direct preference optimization (AV-DPO) method to align model outputs with human preference across quality, consistency, and synchrony dimensions. Built upon Wan2.1-1.3B-T2V, our model achieves state-of-the-art performance merely with around 1M public training entries, significantly outperforming prior approaches in both qualitative and quantitative evaluations. Comprehensive ablation studies have been conducted to validate the effectiveness of our proposed modules. All the code, model, and dataset are released at https://JavisVerse.github.io/JavisDiT2-page.

JavisDiT++: Единое моделирование и оптимизация для совместного генеративного аудиовизуального синтеза

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

Аннотация

Support