VideoChat : Compréhension vidéo centrée sur le chat

Résumé

Dans cette étude, nous entamons une exploration de la compréhension vidéo en introduisant VideoChat, un système de compréhension vidéo centré sur le chat de bout en bout. Il intègre des modèles de base pour la vidéo et des modèles de langage de grande envergure via une interface neuronale apprenable, excellant dans le raisonnement spatio-temporel, la localisation d'événements et l'inférence de relations causales. Pour régler ce système de manière instructive, nous proposons un ensemble de données d'instructions centré sur la vidéo, composé de milliers de vidéos associées à des descriptions détaillées et des conversations. Cet ensemble de données met l'accent sur le raisonnement spatio-temporel et les relations causales, offrant une ressource précieuse pour l'entraînement de systèmes de compréhension vidéo centrés sur le chat. Des expériences qualitatives préliminaires révèlent le potentiel de notre système à travers un large éventail d'applications vidéo et établissent une norme pour les recherches futures. Accédez à notre code et à nos données sur https://github.com/OpenGVLab/Ask-Anything.

English

In this study, we initiate an exploration into video understanding by introducing VideoChat, an end-to-end chat-centric video understanding system. It integrates video foundation models and large language models via a learnable neural interface, excelling in spatiotemporal reasoning, event localization, and causal relationship inference. To instructively tune this system, we propose a video-centric instruction dataset, composed of thousands of videos matched with detailed descriptions and conversations. This dataset emphasizes spatiotemporal reasoning and causal relationships, providing a valuable asset for training chat-centric video understanding systems. Preliminary qualitative experiments reveal our system's potential across a broad spectrum of video applications and set the standard for future research. Access our code and data at https://github.com/OpenGVLab/Ask-Anything

VideoChat : Compréhension vidéo centrée sur le chat

VideoChat: Chat-Centric Video Understanding

Résumé

Support