VideoLLaMA 2: Avanços na Modelagem Espaço-Temporal e Compreensão de Áudio em Video-LLMs
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs
June 11, 2024
Autores: Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing
cs.AI
Resumo
Neste artigo, apresentamos o VideoLLaMA 2, um conjunto de Modelos de Linguagem de Grande Escala para Vídeo (Video-LLMs) projetados para aprimorar a modelagem espaço-temporal e a compreensão de áudio em tarefas orientadas a vídeo e áudio. Baseando-se em seu predecessor, o VideoLLaMA 2 incorpora um Conector de Convolução Espaço-Temporal (STC) personalizado, que efetivamente captura as dinâmicas espaciais e temporais intrincadas dos dados de vídeo. Além disso, integramos um Ramo de Áudio ao modelo por meio de treinamento conjunto, enriquecendo assim as capacidades de compreensão multimodal do modelo ao incorporar de forma contínua pistas de áudio. Avaliações abrangentes em tarefas de resposta a perguntas de múltipla escolha em vídeo (MC-VQA), resposta a perguntas abertas em vídeo (OE-VQA) e legendagem de vídeo (VC) demonstram que o VideoLLaMA 2 consistentemente alcança resultados competitivos entre os modelos de código aberto e até se aproxima de alguns modelos proprietários em diversos benchmarks. Adicionalmente, o VideoLLaMA 2 exibe melhorias razoáveis em benchmarks de resposta a perguntas apenas com áudio e áudio-vídeo (AQA & OE-AVQA) em relação aos modelos existentes. Esses avanços destacam o desempenho superior do VideoLLaMA 2 na compreensão multimodal, estabelecendo um novo padrão para sistemas inteligentes de análise de vídeo. Todos os modelos são públicos para facilitar pesquisas futuras.
English
In this paper, we present the VideoLLaMA 2, a set of Video Large Language
Models (Video-LLMs) designed to enhance spatial-temporal modeling and audio
understanding in video and audio-oriented tasks. Building upon its predecessor,
VideoLLaMA 2 incorporates a tailor-made Spatial-Temporal Convolution (STC)
connector, which effectively captures the intricate spatial and temporal
dynamics of video data. Additionally, we integrate an Audio Branch into the
model through joint training, thereby enriching the multimodal understanding
capabilities of the model by seamlessly incorporating audio cues. Comprehensive
evaluations on multiple-choice video question answering (MC-VQA), open-ended
video question answering (OE-VQA), and video captioning (VC) tasks demonstrate
that VideoLLaMA 2 consistently achieves competitive results among open-source
models and even gets close to some proprietary models on several benchmarks.
Furthermore, VideoLLaMA 2 exhibits reasonable improvements in audio-only and
audio-video question-answering (AQA & OE-AVQA) benchmarks over existing models.
These advancements underline VideoLLaMA 2's superior performance in multimodal
comprehension, setting a new standard for intelligent video analysis systems.
All models are public to facilitate further research.