Video-ChatGPT: Auf dem Weg zu detailliertem Videoverständnis durch große Vision- und Sprachmodelle
Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models
June 8, 2023
Autoren: Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan
cs.AI
Zusammenfassung
Konversationsagenten, die durch Large Language Models (LLMs) angetrieben werden, bieten eine neue Möglichkeit, mit visuellen Daten zu interagieren. Während es bereits erste Ansätze für bildbasierte Konversationsmodelle gab, widmet sich diese Arbeit dem bisher wenig erforschten Bereich der videobasierten Konversation durch die Einführung von Video-ChatGPT. Es handelt sich um ein multimodales Modell, das einen videoadaptierten visuellen Encoder mit einem LLM kombiniert. Das Modell ist in der Lage, menschenähnliche Konversationen über Videos zu verstehen und zu generieren. Wir stellen einen neuen Datensatz mit 100.000 Video-Instruktions-Paaren vor, der zum Training von Video-ChatGPT verwendet wird und über eine manuelle und halbautomatisierte Pipeline erstellt wurde, die leicht skalierbar und robust gegenüber Label-Rauschen ist. Zudem entwickeln wir ein quantitatives Bewertungsframework für videobasierte Dialogmodelle, um die Stärken und Schwächen der vorgeschlagenen Modelle objektiv zu analysieren. Unser Code, Modelle, Instruktionssätze und eine Demo sind unter https://github.com/mbzuai-oryx/Video-ChatGPT verfügbar.
English
Conversation agents fueled by Large Language Models (LLMs) are providing a
new way to interact with visual data. While there have been initial attempts
for image-based conversation models, this work addresses the underexplored
field of video-based conversation by introducing Video-ChatGPT. It is a
multimodal model that merges a video-adapted visual encoder with a LLM. The
model is capable of understanding and generating human-like conversations about
videos. We introduce a new dataset of 100,000 video-instruction pairs used to
train Video-ChatGPT acquired via manual and semi-automated pipeline that is
easily scalable and robust to label noise. We also develop a quantiative
evaluation framework for video-based dialogue models to objectively analyse the
strengths and weaknesses of proposed models. Our code, models, instruction-sets
and demo are released at https://github.com/mbzuai-oryx/Video-ChatGPT.