JavisGPT: Um Modelo de Linguagem Multimodal Unificado para Compreensão e Geração de Vídeos Sonorizados

Resumo

Este artigo apresenta o JavisGPT, o primeiro modelo de linguagem grande multimodal unificado (MLLM) para compreensão e geração conjunta de áudio e vídeo (JAV). O JavisGPT adota uma arquitetura concisa de codificador-LLM-decodificador, apresentando um módulo SyncFusion para fusão espaço-temporal de áudio-vídeo e consultas aprendíveis com consciência de sincronia para conectar um gerador JAV-DiT pré-treinado. Este projeto permite a compreensão e geração temporalmente coerentes de vídeo e áudio a partir de instruções multimodais. Projetamos um pipeline de treinamento eficaz em três estágios, consistindo em pré-treinamento multimodal, ajuste fino de áudio-vídeo e ajuste por instrução em larga escala, para construir progressivamente a compreensão e geração multimodais a partir de modelos visão-linguagem existentes. Para suportar isso, construímos ainda o JavisInst-Omni, um conjunto de dados de instrução de alta qualidade com mais de 200 mil diálogos áudio-vídeo-texto curados pelo GPT-4o que abrangem cenários diversos e de múltiplos níveis de compreensão e geração. Experimentos extensivos em benchmarks de compreensão e geração JAV mostram que o JavisGPT supera os MLLMs existentes, particularmente em configurações complexas e temporalmente sincronizadas.

English

This paper presents JavisGPT, the first unified multimodal large language model (MLLM) for Joint Audio-Video (JAV) comprehension and generation. JavisGPT adopts a concise encoder-LLM-decoder architecture, featuring a SyncFusion module for spatio-temporal audio-video fusion and synchrony-aware learnable queries to bridge a pretrained JAV-DiT generator. This design enables temporally coherent video-audio understanding and generation from multimodal instructions. We design an effective three-stage training pipeline consisting of multimodal pretraining, audio-video fine-tuning, and large-scale instruction-tuning, to progressively build multimodal comprehension and generation from existing vision-language models. To support this, we further construct JavisInst-Omni, a high-quality instruction dataset with over 200K GPT-4o-curated audio-video-text dialogues that span diverse and multi-level comprehension and generation scenarios. Extensive experiments on JAV comprehension and generation benchmarks show that JavisGPT outperforms existing MLLMs, particularly in complex and temporally synchronized settings.

JavisGPT: Um Modelo de Linguagem Multimodal Unificado para Compreensão e Geração de Vídeos Sonorizados

JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

Resumo

Support