Video-ChatGPT: Rumo a uma Compreensão Detalhada de Vídeos por meio de Grandes Modelos de Visão e Linguagem

Resumo

Agentes de conversação impulsionados por Modelos de Linguagem de Grande Escala (LLMs) estão proporcionando uma nova forma de interagir com dados visuais. Embora tenham havido tentativas iniciais de modelos de conversação baseados em imagens, este trabalho aborda o campo pouco explorado de conversação baseada em vídeo, introduzindo o Video-ChatGPT. Trata-se de um modelo multimodal que combina um codificador visual adaptado para vídeo com um LLM. O modelo é capaz de compreender e gerar conversas humanas sobre vídeos. Apresentamos um novo conjunto de dados com 100.000 pares de vídeo-instrução, utilizado para treinar o Video-ChatGPT, adquirido por meio de um pipeline manual e semi-automatizado que é facilmente escalável e robusto a ruídos de rotulagem. Também desenvolvemos um framework de avaliação quantitativa para modelos de diálogo baseados em vídeo, a fim de analisar objetivamente os pontos fortes e fracos dos modelos propostos. Nosso código, modelos, conjuntos de instruções e demonstração estão disponíveis em https://github.com/mbzuai-oryx/Video-ChatGPT.

English

Conversation agents fueled by Large Language Models (LLMs) are providing a new way to interact with visual data. While there have been initial attempts for image-based conversation models, this work addresses the underexplored field of video-based conversation by introducing Video-ChatGPT. It is a multimodal model that merges a video-adapted visual encoder with a LLM. The model is capable of understanding and generating human-like conversations about videos. We introduce a new dataset of 100,000 video-instruction pairs used to train Video-ChatGPT acquired via manual and semi-automated pipeline that is easily scalable and robust to label noise. We also develop a quantiative evaluation framework for video-based dialogue models to objectively analyse the strengths and weaknesses of proposed models. Our code, models, instruction-sets and demo are released at https://github.com/mbzuai-oryx/Video-ChatGPT.

Video-ChatGPT: Rumo a uma Compreensão Detalhada de Vídeos por meio de Grandes Modelos de Visão e Linguagem

Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models

Resumo

Support