ChatPaper.aiChatPaper

JavisGPT: Un Modelo de Lenguaje Grande Multimodal Unificado para la Comprensión y Generación de Vídeos Sonoros

JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

December 28, 2025
Autores: Kai Liu, Jungang Li, Yuchong Sun, Shengqiong Wu, Jianzhang Gao, Daoan Zhang, Wei Zhang, Sheng Jin, Sicheng Yu, Geng Zhan, Jiayi Ji, Fan Zhou, Liang Zheng, Shuicheng Yan, Hao Fei, Tat-Seng Chua
cs.AI

Resumen

Este artículo presenta JavisGPT, el primer modelo de lenguaje grande multimodal unificado (MLLM) para la comprensión y generación conjunta de audio y vídeo (JAV). JavisGPT adopta una arquitectura concisa de codificador-LLM-decodificador, que incluye un módulo SyncFusion para la fusión espacio-temporal de audio y vídeo y consultas aprendibles con conciencia de sincronía para conectar un generador JAV-DiT preentrenado. Este diseño permite la comprensión y generación de vídeo y audio temporalmente coherentes a partir de instrucciones multimodales. Diseñamos una canalización de entrenamiento efectiva de tres etapas que consiste en preentrenamiento multimodal, ajuste fino de audio-vídeo y ajuste por instrucciones a gran escala, para construir progresivamente la comprensión y generación multimodal a partir de modelos de visión y lenguaje existentes. Para respaldar esto, construimos además JavisInst-Omni, un conjunto de datos de instrucciones de alta calidad con más de 200.000 diálogos de audio, vídeo y texto curados por GPT-4o que abarcan escenarios diversos y de múltiples niveles de comprensión y generación. Experimentos exhaustivos en puntos de referencia de comprensión y generación JAV demuestran que JavisGPT supera a los MLLM existentes, particularmente en entornos complejos y temporalmente sincronizados.
English
This paper presents JavisGPT, the first unified multimodal large language model (MLLM) for Joint Audio-Video (JAV) comprehension and generation. JavisGPT adopts a concise encoder-LLM-decoder architecture, featuring a SyncFusion module for spatio-temporal audio-video fusion and synchrony-aware learnable queries to bridge a pretrained JAV-DiT generator. This design enables temporally coherent video-audio understanding and generation from multimodal instructions. We design an effective three-stage training pipeline consisting of multimodal pretraining, audio-video fine-tuning, and large-scale instruction-tuning, to progressively build multimodal comprehension and generation from existing vision-language models. To support this, we further construct JavisInst-Omni, a high-quality instruction dataset with over 200K GPT-4o-curated audio-video-text dialogues that span diverse and multi-level comprehension and generation scenarios. Extensive experiments on JAV comprehension and generation benchmarks show that JavisGPT outperforms existing MLLMs, particularly in complex and temporally synchronized settings.
PDF41January 2, 2026