VideoChat: Comprensione Video Centrata sulla Chat
VideoChat: Chat-Centric Video Understanding
May 10, 2023
Autori: KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, Yu Qiao
cs.AI
Abstract
In questo studio, iniziamo un'esplorazione della comprensione video introducendo VideoChat, un sistema di comprensione video end-to-end incentrato sulla chat. Esso integra modelli di base per il video e modelli linguistici di grandi dimensioni attraverso un'interfaccia neurale apprendibile, eccellendo nel ragionamento spaziotemporale, nella localizzazione degli eventi e nell'inferenza delle relazioni causali. Per ottimizzare in modo istruttivo questo sistema, proponiamo un dataset di istruzioni incentrato sui video, composto da migliaia di video abbinati a descrizioni dettagliate e conversazioni. Questo dataset enfatizza il ragionamento spaziotemporale e le relazioni causali, fornendo una risorsa preziosa per l'addestramento di sistemi di comprensione video incentrati sulla chat. Esperimenti qualitativi preliminari rivelano il potenziale del nostro sistema in un'ampia gamma di applicazioni video e stabiliscono uno standard per la ricerca futura. Accedi al nostro codice e ai dati su https://github.com/OpenGVLab/Ask-Anything.
English
In this study, we initiate an exploration into video understanding by
introducing VideoChat, an end-to-end chat-centric video understanding system.
It integrates video foundation models and large language models via a learnable
neural interface, excelling in spatiotemporal reasoning, event localization,
and causal relationship inference. To instructively tune this system, we
propose a video-centric instruction dataset, composed of thousands of videos
matched with detailed descriptions and conversations. This dataset emphasizes
spatiotemporal reasoning and causal relationships, providing a valuable asset
for training chat-centric video understanding systems. Preliminary qualitative
experiments reveal our system's potential across a broad spectrum of video
applications and set the standard for future research. Access our code and data
at https://github.com/OpenGVLab/Ask-Anything