Video-LLaMA: Um Modelo de Linguagem Audiovisual Ajustado por Instruções para Compreensão de Vídeos

Resumo

Apresentamos o Video-LLaMA, um framework multimodal que capacita Modelos de Linguagem de Grande Escala (LLMs) com a habilidade de compreender tanto conteúdo visual quanto auditivo em vídeos. O Video-LLaMA inicia o treinamento cruzado de modalidades a partir de codificadores visuais e auditivos pré-treinados e congelados, bem como de LLMs congelados. Diferente de LLMs visuais anteriores que se concentram na compreensão de imagens estáticas, como o MiniGPT-4~zhu2023minigpt e o LLaVA~liu2023visualit, o Video-LLaMA aborda dois desafios na compreensão de vídeos: (1) capturar as mudanças temporais nas cenas visuais, (2) integrar sinais audiovisuais. Para o primeiro desafio, propomos o Video Q-former para estender o codificador de imagens pré-treinado a um codificador de vídeos e introduzimos uma tarefa de geração de texto a partir de vídeo para aprender a correspondência entre vídeo e linguagem. Para o segundo desafio, utilizamos o ImageBind~girdhar2023imagebind como o codificador de áudio pré-treinado, que se destaca no alinhamento de diferentes modalidades a um espaço de incorporação comum. Em seguida, introduzimos um Audio Q-former para aprender tokens de consulta auditivos. Para alinhar a saída dos codificadores visual e auditivo com o espaço de incorporação do LLM, treinamos o Video-LLaMA em um grande conjunto de dados de legendagem visual e em um conjunto de dados de alta qualidade para ajuste fino de instruções visuais. Descobrimos que o Video-LLaMA demonstra a capacidade de perceber e compreender o conteúdo de vídeos, gerando respostas significativas que são fundamentadas nas informações visuais e auditivas presentes nos vídeos. Isso destaca o potencial do Video-LLaMA como um protótipo promissor para assistentes de IA audiovisuais. Nosso código, modelo pré-treinado e demonstração estão disponíveis em https://github.com/DAMO-NLP-SG/Video-LLaMA.

English

We present Video-LLaMA, a multi-modal framework that empowers Large Language Models (LLMs) with the capability of understanding both visual and auditory content in the video. Video-LLaMA bootstraps cross-modal training from the frozen pre-trained visual \& audio encoders and the frozen LLMs. Unlike previous vision- LLMs that focus on static image comprehensions such as MiniGPT-4~zhu2023minigpt and LLaVA~liu2023visualit, Video-LLaMA tackles two challenges in video understanding: (1) capturing the temporal changes in visual scenes, (2) integrating audio-visual signals. For the first challenge, we propose Video Q-former to extend the pre-trained image encoder to a video encoder and introduce a video-to-text generation task to learn video-language correspondence. For the second challenge, we leverage ImageBind~girdhar2023imagebind as the pre-trained audio encoder which performs exceptionally well in aligning different modalities to a common embedding space. And then introduce an Audio Q-former to learn auditory query tokens. To align the output of both visual \& audio encoder with LLM's embedding space, we train Video-LLaMA on a large-scale vision caption dataset and a hign-quantity vision-instruction-tuning dataset. We found Video-LLaMA showcases the ability to perceive and comprehend video content, generating meaningful responses that are grounded in the visual and auditory information present in the videos. This highlights the potential of Video-LLaMA as a promising prototype for audio-visual AI assistants. Our code, pre-trained model, and demo are available at https://github.com/DAMO-NLP-SG/Video-LLaMA.

Video-LLaMA: Um Modelo de Linguagem Audiovisual Ajustado por Instruções para Compreensão de Vídeos

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

Resumo

Support