ChatPaper.aiChatPaper

JavisGPT: Un Modello LLM Multi-modale Unificato per la Comprensione e Generazione di Video Sonorizzati

JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

December 28, 2025
Autori: Kai Liu, Jungang Li, Yuchong Sun, Shengqiong Wu, Jianzhang Gao, Daoan Zhang, Wei Zhang, Sheng Jin, Sicheng Yu, Geng Zhan, Jiayi Ji, Fan Zhou, Liang Zheng, Shuicheng Yan, Hao Fei, Tat-Seng Chua
cs.AI

Abstract

Questo articolo presenta JavisGPT, il primo modello linguistico multimodale di grandi dimensioni (MLLM) unificato per la comprensione e generazione congiunta audio-video (JAV). JavisGPT adotta una concisa architettura encoder-LLM-decoder, caratterizzata da un modulo SyncFusion per la fusione spazio-temporale audio-video e query apprendibili con consapevolezza della sincronia per collegare un generatore JAV-DiT preaddestrato. Questo design abilita la comprensione e generazione audio-video temporalmente coerenti a partire da istruzioni multimodali. Progettiamo una pipeline di addestramento efficace in tre fasi, composta da preaddestramento multimodale, fine-tuning audio-video e instruction-tuning su larga scala, per costruire progressivamente capacità di comprensione e generazione multimodali a partire da modelli visione-linguaggio esistenti. A supporto di ciò, costruiamo ulteriormente JavisInst-Omni, un dataset di istruzioni di alta qualità con oltre 200.000 dialoghi audio-video-testo curati da GPT-4o che coprono scenari diversificati e multilivello di comprensione e generazione. Esperimenti estesi su benchmark di comprensione e generazione JAV dimostrano che JavisGPT supera gli MLLM esistenti, particolarmente in contesti complessi e temporalmente sincronizzati.
English
This paper presents JavisGPT, the first unified multimodal large language model (MLLM) for Joint Audio-Video (JAV) comprehension and generation. JavisGPT adopts a concise encoder-LLM-decoder architecture, featuring a SyncFusion module for spatio-temporal audio-video fusion and synchrony-aware learnable queries to bridge a pretrained JAV-DiT generator. This design enables temporally coherent video-audio understanding and generation from multimodal instructions. We design an effective three-stage training pipeline consisting of multimodal pretraining, audio-video fine-tuning, and large-scale instruction-tuning, to progressively build multimodal comprehension and generation from existing vision-language models. To support this, we further construct JavisInst-Omni, a high-quality instruction dataset with over 200K GPT-4o-curated audio-video-text dialogues that span diverse and multi-level comprehension and generation scenarios. Extensive experiments on JAV comprehension and generation benchmarks show that JavisGPT outperforms existing MLLMs, particularly in complex and temporally synchronized settings.
PDF203March 17, 2026