Video-ChatGPT: Naar Gedetailleerd Videobegrip via Grote Visuele en Taalmodellen

Samenvatting

Conversatieagents aangedreven door Large Language Models (LLMs) bieden een nieuwe manier om te interacteren met visuele data. Hoewel er al eerste pogingen zijn gedaan voor op afbeeldingen gebaseerde conversatiemodellen, richt dit werk zich op het onderbelichte gebied van op video gebaseerde conversatie door Video-ChatGPT te introduceren. Het is een multimodaal model dat een visuele encoder, aangepast voor video, combineert met een LLM. Het model is in staat om mensachtige gesprekken over video's te begrijpen en te genereren. We introduceren een nieuwe dataset van 100.000 video-instructieparen die gebruikt wordt om Video-ChatGPT te trainen, verkregen via een handmatige en semi-geautomatiseerde pipeline die eenvoudig schaalbaar is en robuust tegen labelruis. We ontwikkelen ook een kwantitatief evaluatiekader voor op video gebaseerde dialoogmodellen om de sterke en zwakke punten van de voorgestelde modellen objectief te analyseren. Onze code, modellen, instructiesets en demo zijn vrijgegeven op https://github.com/mbzuai-oryx/Video-ChatGPT.

English

Conversation agents fueled by Large Language Models (LLMs) are providing a new way to interact with visual data. While there have been initial attempts for image-based conversation models, this work addresses the underexplored field of video-based conversation by introducing Video-ChatGPT. It is a multimodal model that merges a video-adapted visual encoder with a LLM. The model is capable of understanding and generating human-like conversations about videos. We introduce a new dataset of 100,000 video-instruction pairs used to train Video-ChatGPT acquired via manual and semi-automated pipeline that is easily scalable and robust to label noise. We also develop a quantiative evaluation framework for video-based dialogue models to objectively analyse the strengths and weaknesses of proposed models. Our code, models, instruction-sets and demo are released at https://github.com/mbzuai-oryx/Video-ChatGPT.

Video-ChatGPT: Naar Gedetailleerd Videobegrip via Grote Visuele en Taalmodellen

Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models

Samenvatting

Support