ChatPaper.aiChatPaper

Video-ChatGPT: Hacia una comprensión detallada de videos mediante modelos grandes de visión y lenguaje

Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models

June 8, 2023
Autores: Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan
cs.AI

Resumen

Los agentes conversacionales impulsados por modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están ofreciendo una nueva forma de interactuar con datos visuales. Si bien ha habido intentos iniciales de desarrollar modelos conversacionales basados en imágenes, este trabajo aborda el campo poco explorado de las conversaciones basadas en videos mediante la introducción de Video-ChatGPT. Se trata de un modelo multimodal que combina un codificador visual adaptado para videos con un LLM. El modelo es capaz de comprender y generar conversaciones similares a las humanas sobre videos. Presentamos un nuevo conjunto de datos de 100,000 pares de video-instrucción utilizados para entrenar Video-ChatGPT, adquiridos mediante un proceso manual y semiautomatizado que es fácilmente escalable y robusto ante el ruido en las etiquetas. También desarrollamos un marco de evaluación cuantitativa para modelos de diálogo basados en videos, con el fin de analizar objetivamente las fortalezas y debilidades de los modelos propuestos. Nuestro código, modelos, conjuntos de instrucciones y demostración están disponibles en https://github.com/mbzuai-oryx/Video-ChatGPT.
English
Conversation agents fueled by Large Language Models (LLMs) are providing a new way to interact with visual data. While there have been initial attempts for image-based conversation models, this work addresses the underexplored field of video-based conversation by introducing Video-ChatGPT. It is a multimodal model that merges a video-adapted visual encoder with a LLM. The model is capable of understanding and generating human-like conversations about videos. We introduce a new dataset of 100,000 video-instruction pairs used to train Video-ChatGPT acquired via manual and semi-automated pipeline that is easily scalable and robust to label noise. We also develop a quantiative evaluation framework for video-based dialogue models to objectively analyse the strengths and weaknesses of proposed models. Our code, models, instruction-sets and demo are released at https://github.com/mbzuai-oryx/Video-ChatGPT.
PDF71December 15, 2024