VideoChat: Videoverständnis mit Chat-Fokus
VideoChat: Chat-Centric Video Understanding
May 10, 2023
Autoren: KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, Yu Qiao
cs.AI
Zusammenfassung
In dieser Studie initiieren wir eine Untersuchung des Videoverständnisses durch die Einführung von VideoChat, einem end-to-end Chat-zentrierten Videoverständnissystem. Es integriert Video-Foundation-Modelle und große Sprachmodelle über eine lernbare neuronale Schnittstelle und zeichnet sich durch spatiotemporale Argumentation, Ereignislokalisierung und Kausalitätsinferenz aus. Um dieses System instruktiv zu optimieren, schlagen wir einen Video-zentrierten Instruktionsdatensatz vor, der aus Tausenden von Videos besteht, die mit detaillierten Beschreibungen und Konversationen verknüpft sind. Dieser Datensatz legt den Schwerpunkt auf spatiotemporale Argumentation und Kausalbeziehungen und stellt eine wertvolle Ressource für das Training von Chat-zentrierten Videoverständnissystemen dar. Vorläufige qualitative Experimente zeigen das Potenzial unseres Systems über ein breites Spektrum von Videoanwendungen hinweg und setzen den Standard für zukünftige Forschungen. Zugriff auf unseren Code und die Daten unter https://github.com/OpenGVLab/Ask-Anything.
English
In this study, we initiate an exploration into video understanding by
introducing VideoChat, an end-to-end chat-centric video understanding system.
It integrates video foundation models and large language models via a learnable
neural interface, excelling in spatiotemporal reasoning, event localization,
and causal relationship inference. To instructively tune this system, we
propose a video-centric instruction dataset, composed of thousands of videos
matched with detailed descriptions and conversations. This dataset emphasizes
spatiotemporal reasoning and causal relationships, providing a valuable asset
for training chat-centric video understanding systems. Preliminary qualitative
experiments reveal our system's potential across a broad spectrum of video
applications and set the standard for future research. Access our code and data
at https://github.com/OpenGVLab/Ask-Anything