VideoChat: Videoverständnis mit Chat-Fokus

Zusammenfassung

In dieser Studie initiieren wir eine Untersuchung des Videoverständnisses durch die Einführung von VideoChat, einem end-to-end Chat-zentrierten Videoverständnissystem. Es integriert Video-Foundation-Modelle und große Sprachmodelle über eine lernbare neuronale Schnittstelle und zeichnet sich durch spatiotemporale Argumentation, Ereignislokalisierung und Kausalitätsinferenz aus. Um dieses System instruktiv zu optimieren, schlagen wir einen Video-zentrierten Instruktionsdatensatz vor, der aus Tausenden von Videos besteht, die mit detaillierten Beschreibungen und Konversationen verknüpft sind. Dieser Datensatz legt den Schwerpunkt auf spatiotemporale Argumentation und Kausalbeziehungen und stellt eine wertvolle Ressource für das Training von Chat-zentrierten Videoverständnissystemen dar. Vorläufige qualitative Experimente zeigen das Potenzial unseres Systems über ein breites Spektrum von Videoanwendungen hinweg und setzen den Standard für zukünftige Forschungen. Zugriff auf unseren Code und die Daten unter https://github.com/OpenGVLab/Ask-Anything.

English

In this study, we initiate an exploration into video understanding by introducing VideoChat, an end-to-end chat-centric video understanding system. It integrates video foundation models and large language models via a learnable neural interface, excelling in spatiotemporal reasoning, event localization, and causal relationship inference. To instructively tune this system, we propose a video-centric instruction dataset, composed of thousands of videos matched with detailed descriptions and conversations. This dataset emphasizes spatiotemporal reasoning and causal relationships, providing a valuable asset for training chat-centric video understanding systems. Preliminary qualitative experiments reveal our system's potential across a broad spectrum of video applications and set the standard for future research. Access our code and data at https://github.com/OpenGVLab/Ask-Anything

VideoChat: Videoverständnis mit Chat-Fokus

VideoChat: Chat-Centric Video Understanding

Zusammenfassung

Support