VideoChat: Chat-gericht Video-begrip
VideoChat: Chat-Centric Video Understanding
May 10, 2023
Auteurs: KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, Yu Qiao
cs.AI
Samenvatting
In deze studie beginnen we een verkenning van videobegrip door VideoChat te introduceren, een end-to-end chatsysteem gericht op videobegrip. Het integreert videofundamentmodellen en grote taalmodellen via een leerbare neurale interface, en blinkt uit in ruimtelijk-temporeel redeneren, gebeurtenislokalisatie en het afleiden van causale relaties. Om dit systeem instructief af te stemmen, stellen we een video-centrale instructiedataset voor, bestaande uit duizenden video's die zijn gekoppeld aan gedetailleerde beschrijvingen en gesprekken. Deze dataset legt de nadruk op ruimtelijk-temporeel redeneren en causale relaties, en biedt een waardevolle bron voor het trainen van chat-gerichte videobegripsystemen. Eerste kwalitatieve experimenten onthullen het potentieel van ons systeem voor een breed scala aan videotoepassingen en zetten de standaard voor toekomstig onderzoek. Onze code en data zijn beschikbaar op https://github.com/OpenGVLab/Ask-Anything.
English
In this study, we initiate an exploration into video understanding by
introducing VideoChat, an end-to-end chat-centric video understanding system.
It integrates video foundation models and large language models via a learnable
neural interface, excelling in spatiotemporal reasoning, event localization,
and causal relationship inference. To instructively tune this system, we
propose a video-centric instruction dataset, composed of thousands of videos
matched with detailed descriptions and conversations. This dataset emphasizes
spatiotemporal reasoning and causal relationships, providing a valuable asset
for training chat-centric video understanding systems. Preliminary qualitative
experiments reveal our system's potential across a broad spectrum of video
applications and set the standard for future research. Access our code and data
at https://github.com/OpenGVLab/Ask-Anything