Video-ChatGPT : Vers une compréhension détaillée des vidéos grâce aux grands modèles de vision et de langage
Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models
June 8, 2023
Auteurs: Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan
cs.AI
Résumé
Les agents conversationnels alimentés par des modèles de langage de grande taille (LLMs) offrent une nouvelle manière d'interagir avec des données visuelles. Bien que des tentatives initiales aient été faites pour des modèles de conversation basés sur des images, ce travail aborde le domaine encore peu exploré de la conversation basée sur des vidéos en introduisant Video-ChatGPT. Il s'agit d'un modèle multimodal qui combine un encodeur visuel adapté aux vidéos avec un LLM. Ce modèle est capable de comprendre et de générer des conversations humaines à propos de vidéos. Nous introduisons un nouveau jeu de données de 100 000 paires vidéo-instruction utilisées pour entraîner Video-ChatGPT, acquises via un pipeline manuel et semi-automatisé qui est facilement extensible et robuste au bruit des étiquettes. Nous développons également un cadre d'évaluation quantitative pour les modèles de dialogue basés sur des vidéos afin d'analyser objectivement les forces et les faiblesses des modèles proposés. Notre code, modèles, ensembles d'instructions et démonstration sont disponibles à l'adresse https://github.com/mbzuai-oryx/Video-ChatGPT.
English
Conversation agents fueled by Large Language Models (LLMs) are providing a
new way to interact with visual data. While there have been initial attempts
for image-based conversation models, this work addresses the underexplored
field of video-based conversation by introducing Video-ChatGPT. It is a
multimodal model that merges a video-adapted visual encoder with a LLM. The
model is capable of understanding and generating human-like conversations about
videos. We introduce a new dataset of 100,000 video-instruction pairs used to
train Video-ChatGPT acquired via manual and semi-automated pipeline that is
easily scalable and robust to label noise. We also develop a quantiative
evaluation framework for video-based dialogue models to objectively analyse the
strengths and weaknesses of proposed models. Our code, models, instruction-sets
and demo are released at https://github.com/mbzuai-oryx/Video-ChatGPT.