VideoChat: Chat-gericht Video-begrip

Samenvatting

In deze studie beginnen we een verkenning van videobegrip door VideoChat te introduceren, een end-to-end chatsysteem gericht op videobegrip. Het integreert videofundamentmodellen en grote taalmodellen via een leerbare neurale interface, en blinkt uit in ruimtelijk-temporeel redeneren, gebeurtenislokalisatie en het afleiden van causale relaties. Om dit systeem instructief af te stemmen, stellen we een video-centrale instructiedataset voor, bestaande uit duizenden video's die zijn gekoppeld aan gedetailleerde beschrijvingen en gesprekken. Deze dataset legt de nadruk op ruimtelijk-temporeel redeneren en causale relaties, en biedt een waardevolle bron voor het trainen van chat-gerichte videobegripsystemen. Eerste kwalitatieve experimenten onthullen het potentieel van ons systeem voor een breed scala aan videotoepassingen en zetten de standaard voor toekomstig onderzoek. Onze code en data zijn beschikbaar op https://github.com/OpenGVLab/Ask-Anything.

English

In this study, we initiate an exploration into video understanding by introducing VideoChat, an end-to-end chat-centric video understanding system. It integrates video foundation models and large language models via a learnable neural interface, excelling in spatiotemporal reasoning, event localization, and causal relationship inference. To instructively tune this system, we propose a video-centric instruction dataset, composed of thousands of videos matched with detailed descriptions and conversations. This dataset emphasizes spatiotemporal reasoning and causal relationships, providing a valuable asset for training chat-centric video understanding systems. Preliminary qualitative experiments reveal our system's potential across a broad spectrum of video applications and set the standard for future research. Access our code and data at https://github.com/OpenGVLab/Ask-Anything

VideoChat: Chat-gericht Video-begrip

VideoChat: Chat-Centric Video Understanding

Samenvatting

Support