VideoChat : Compréhension vidéo centrée sur le chat
VideoChat: Chat-Centric Video Understanding
May 10, 2023
Auteurs: KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, Yu Qiao
cs.AI
Résumé
Dans cette étude, nous entamons une exploration de la compréhension vidéo en introduisant VideoChat, un système de compréhension vidéo centré sur le chat de bout en bout. Il intègre des modèles de base pour la vidéo et des modèles de langage de grande envergure via une interface neuronale apprenable, excellant dans le raisonnement spatio-temporel, la localisation d'événements et l'inférence de relations causales. Pour régler ce système de manière instructive, nous proposons un ensemble de données d'instructions centré sur la vidéo, composé de milliers de vidéos associées à des descriptions détaillées et des conversations. Cet ensemble de données met l'accent sur le raisonnement spatio-temporel et les relations causales, offrant une ressource précieuse pour l'entraînement de systèmes de compréhension vidéo centrés sur le chat. Des expériences qualitatives préliminaires révèlent le potentiel de notre système à travers un large éventail d'applications vidéo et établissent une norme pour les recherches futures. Accédez à notre code et à nos données sur https://github.com/OpenGVLab/Ask-Anything.
English
In this study, we initiate an exploration into video understanding by
introducing VideoChat, an end-to-end chat-centric video understanding system.
It integrates video foundation models and large language models via a learnable
neural interface, excelling in spatiotemporal reasoning, event localization,
and causal relationship inference. To instructively tune this system, we
propose a video-centric instruction dataset, composed of thousands of videos
matched with detailed descriptions and conversations. This dataset emphasizes
spatiotemporal reasoning and causal relationships, providing a valuable asset
for training chat-centric video understanding systems. Preliminary qualitative
experiments reveal our system's potential across a broad spectrum of video
applications and set the standard for future research. Access our code and data
at https://github.com/OpenGVLab/Ask-Anything