Video-ChatGPT: Rumo a uma Compreensão Detalhada de Vídeos por meio de Grandes Modelos de Visão e Linguagem
Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models
June 8, 2023
Autores: Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan
cs.AI
Resumo
Agentes de conversação impulsionados por Modelos de Linguagem de Grande Escala (LLMs) estão proporcionando uma nova forma de interagir com dados visuais. Embora tenham havido tentativas iniciais de modelos de conversação baseados em imagens, este trabalho aborda o campo pouco explorado de conversação baseada em vídeo, introduzindo o Video-ChatGPT. Trata-se de um modelo multimodal que combina um codificador visual adaptado para vídeo com um LLM. O modelo é capaz de compreender e gerar conversas humanas sobre vídeos. Apresentamos um novo conjunto de dados com 100.000 pares de vídeo-instrução, utilizado para treinar o Video-ChatGPT, adquirido por meio de um pipeline manual e semi-automatizado que é facilmente escalável e robusto a ruídos de rotulagem. Também desenvolvemos um framework de avaliação quantitativa para modelos de diálogo baseados em vídeo, a fim de analisar objetivamente os pontos fortes e fracos dos modelos propostos. Nosso código, modelos, conjuntos de instruções e demonstração estão disponíveis em https://github.com/mbzuai-oryx/Video-ChatGPT.
English
Conversation agents fueled by Large Language Models (LLMs) are providing a
new way to interact with visual data. While there have been initial attempts
for image-based conversation models, this work addresses the underexplored
field of video-based conversation by introducing Video-ChatGPT. It is a
multimodal model that merges a video-adapted visual encoder with a LLM. The
model is capable of understanding and generating human-like conversations about
videos. We introduce a new dataset of 100,000 video-instruction pairs used to
train Video-ChatGPT acquired via manual and semi-automated pipeline that is
easily scalable and robust to label noise. We also develop a quantiative
evaluation framework for video-based dialogue models to objectively analyse the
strengths and weaknesses of proposed models. Our code, models, instruction-sets
and demo are released at https://github.com/mbzuai-oryx/Video-ChatGPT.