VideoChat: Comprensione Video Centrata sulla Chat

Abstract

In questo studio, iniziamo un'esplorazione della comprensione video introducendo VideoChat, un sistema di comprensione video end-to-end incentrato sulla chat. Esso integra modelli di base per il video e modelli linguistici di grandi dimensioni attraverso un'interfaccia neurale apprendibile, eccellendo nel ragionamento spaziotemporale, nella localizzazione degli eventi e nell'inferenza delle relazioni causali. Per ottimizzare in modo istruttivo questo sistema, proponiamo un dataset di istruzioni incentrato sui video, composto da migliaia di video abbinati a descrizioni dettagliate e conversazioni. Questo dataset enfatizza il ragionamento spaziotemporale e le relazioni causali, fornendo una risorsa preziosa per l'addestramento di sistemi di comprensione video incentrati sulla chat. Esperimenti qualitativi preliminari rivelano il potenziale del nostro sistema in un'ampia gamma di applicazioni video e stabiliscono uno standard per la ricerca futura. Accedi al nostro codice e ai dati su https://github.com/OpenGVLab/Ask-Anything.

English

In this study, we initiate an exploration into video understanding by introducing VideoChat, an end-to-end chat-centric video understanding system. It integrates video foundation models and large language models via a learnable neural interface, excelling in spatiotemporal reasoning, event localization, and causal relationship inference. To instructively tune this system, we propose a video-centric instruction dataset, composed of thousands of videos matched with detailed descriptions and conversations. This dataset emphasizes spatiotemporal reasoning and causal relationships, providing a valuable asset for training chat-centric video understanding systems. Preliminary qualitative experiments reveal our system's potential across a broad spectrum of video applications and set the standard for future research. Access our code and data at https://github.com/OpenGVLab/Ask-Anything

VideoChat: Comprensione Video Centrata sulla Chat

VideoChat: Chat-Centric Video Understanding

Abstract

Support