ChatPaper.aiChatPaper

Video-ChatGPT: Verso una Comprensione Dettagliata dei Video tramite Modelli di Visione e Linguaggio su Larga Scala

Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models

June 8, 2023
Autori: Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan
cs.AI

Abstract

Gli agenti conversazionali alimentati da Large Language Models (LLM) stanno offrendo un nuovo modo di interagire con i dati visivi. Sebbene ci siano stati tentativi iniziali di sviluppare modelli conversazionali basati su immagini, questo lavoro affronta il campo ancora poco esplorato delle conversazioni basate su video introducendo Video-ChatGPT. Si tratta di un modello multimodale che combina un encoder visivo adattato per i video con un LLM. Il modello è in grado di comprendere e generare conversazioni simili a quelle umane riguardanti i video. Introduciamo un nuovo dataset di 100.000 coppie video-istruzione utilizzato per addestrare Video-ChatGPT, acquisito tramite una pipeline manuale e semi-automatizzata che è facilmente scalabile e robusta al rumore nelle etichette. Sviluppiamo inoltre un framework di valutazione quantitativa per i modelli di dialogo basati su video, al fine di analizzare oggettivamente i punti di forza e le debolezze dei modelli proposti. Il nostro codice, i modelli, gli insiemi di istruzioni e la demo sono disponibili all'indirizzo https://github.com/mbzuai-oryx/Video-ChatGPT.
English
Conversation agents fueled by Large Language Models (LLMs) are providing a new way to interact with visual data. While there have been initial attempts for image-based conversation models, this work addresses the underexplored field of video-based conversation by introducing Video-ChatGPT. It is a multimodal model that merges a video-adapted visual encoder with a LLM. The model is capable of understanding and generating human-like conversations about videos. We introduce a new dataset of 100,000 video-instruction pairs used to train Video-ChatGPT acquired via manual and semi-automated pipeline that is easily scalable and robust to label noise. We also develop a quantiative evaluation framework for video-based dialogue models to objectively analyse the strengths and weaknesses of proposed models. Our code, models, instruction-sets and demo are released at https://github.com/mbzuai-oryx/Video-ChatGPT.
PDF71December 15, 2024