ChatPaper.aiChatPaper

JavisGPT: 음향 비디오 이해 및 생성을 위한 통합 멀티모달 LLM

JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

December 28, 2025
저자: Kai Liu, Jungang Li, Yuchong Sun, Shengqiong Wu, Jianzhang Gao, Daoan Zhang, Wei Zhang, Sheng Jin, Sicheng Yu, Geng Zhan, Jiayi Ji, Fan Zhou, Liang Zheng, Shuicheng Yan, Hao Fei, Tat-Seng Chua
cs.AI

초록

본 논문은 음향-비디오(JAV)의 통합적 이해 및 생성을 위한 최초의 통합 멀티모달 대규모 언어 모델(MLLM)인 JavisGPT를 소개한다. JavisGPT는 간결한 인코더-LLM-디코더 구조를 채택하며, 사전 학습된 JAV-DiT 생성기를 연결하기 위한 시공간적 음향-비디오 융합을 위한 SyncFusion 모듈과 동기화 인지 학습 가능 쿼리를 특징으로 한다. 이 설계는 멀티모달 지시어로부터 시간적 일관성을 갖는 비디오-오디오 이해 및 생성을 가능하게 한다. 기존 시각-언어 모델로부터 점진적으로 멀티모달 이해 및 생성을 구축하기 위해 멀티모달 사전 학습, 음향-비디오 미세 조정, 대규모 지시어 조정으로 구성된 효과적인 3단계 학습 파이프라인을 설계하였다. 이를 지원하기 위해 다양하고 다중 수준의 이해 및 생성 시나리오를 아우르는 20만 개 이상의 GPT-4o 기반 음향-비디오-텍스트 대화로 구성된 고품질 지시어 데이터셋 JavisInst-Omni를 추가로 구축하였다. JAV 이해 및 생성 벤치마크에 대한 폭넓은 실험 결과, JavisGPT가 기존 MLLM을 능가하며 특히 복잡하고 시간적 동기화가 필요한 환경에서 우수한 성능을 보여줌을 확인하였다.
English
This paper presents JavisGPT, the first unified multimodal large language model (MLLM) for Joint Audio-Video (JAV) comprehension and generation. JavisGPT adopts a concise encoder-LLM-decoder architecture, featuring a SyncFusion module for spatio-temporal audio-video fusion and synchrony-aware learnable queries to bridge a pretrained JAV-DiT generator. This design enables temporally coherent video-audio understanding and generation from multimodal instructions. We design an effective three-stage training pipeline consisting of multimodal pretraining, audio-video fine-tuning, and large-scale instruction-tuning, to progressively build multimodal comprehension and generation from existing vision-language models. To support this, we further construct JavisInst-Omni, a high-quality instruction dataset with over 200K GPT-4o-curated audio-video-text dialogues that span diverse and multi-level comprehension and generation scenarios. Extensive experiments on JAV comprehension and generation benchmarks show that JavisGPT outperforms existing MLLMs, particularly in complex and temporally synchronized settings.
PDF41January 2, 2026