JavisGPT: Un Modello LLM Multi-modale Unificato per la Comprensione e Generazione di Video Sonorizzati

Abstract

Questo articolo presenta JavisGPT, il primo modello linguistico multimodale di grandi dimensioni (MLLM) unificato per la comprensione e generazione congiunta audio-video (JAV). JavisGPT adotta una concisa architettura encoder-LLM-decoder, caratterizzata da un modulo SyncFusion per la fusione spazio-temporale audio-video e query apprendibili con consapevolezza della sincronia per collegare un generatore JAV-DiT preaddestrato. Questo design abilita la comprensione e generazione audio-video temporalmente coerenti a partire da istruzioni multimodali. Progettiamo una pipeline di addestramento efficace in tre fasi, composta da preaddestramento multimodale, fine-tuning audio-video e instruction-tuning su larga scala, per costruire progressivamente capacità di comprensione e generazione multimodali a partire da modelli visione-linguaggio esistenti. A supporto di ciò, costruiamo ulteriormente JavisInst-Omni, un dataset di istruzioni di alta qualità con oltre 200.000 dialoghi audio-video-testo curati da GPT-4o che coprono scenari diversificati e multilivello di comprensione e generazione. Esperimenti estesi su benchmark di comprensione e generazione JAV dimostrano che JavisGPT supera gli MLLM esistenti, particolarmente in contesti complessi e temporalmente sincronizzati.

English

This paper presents JavisGPT, the first unified multimodal large language model (MLLM) for Joint Audio-Video (JAV) comprehension and generation. JavisGPT adopts a concise encoder-LLM-decoder architecture, featuring a SyncFusion module for spatio-temporal audio-video fusion and synchrony-aware learnable queries to bridge a pretrained JAV-DiT generator. This design enables temporally coherent video-audio understanding and generation from multimodal instructions. We design an effective three-stage training pipeline consisting of multimodal pretraining, audio-video fine-tuning, and large-scale instruction-tuning, to progressively build multimodal comprehension and generation from existing vision-language models. To support this, we further construct JavisInst-Omni, a high-quality instruction dataset with over 200K GPT-4o-curated audio-video-text dialogues that span diverse and multi-level comprehension and generation scenarios. Extensive experiments on JAV comprehension and generation benchmarks show that JavisGPT outperforms existing MLLMs, particularly in complex and temporally synchronized settings.

JavisGPT: Un Modello LLM Multi-modale Unificato per la Comprensione e Generazione di Video Sonorizzati

JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

Abstract

Support