VideoChat: Видеопонимание с акцентом на чат
VideoChat: Chat-Centric Video Understanding
May 10, 2023
Авторы: KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, Yu Qiao
cs.AI
Аннотация
В данном исследовании мы начинаем изучение понимания видео, представляя VideoChat — сквозную систему понимания видео, ориентированную на чат. Она объединяет базовые модели для видео и крупные языковые модели через обучаемый нейронный интерфейс, демонстрируя превосходство в пространственно-временном анализе, локализации событий и выводе причинно-следственных связей. Для настройки этой системы мы предлагаем видеоцентричный набор данных с инструкциями, состоящий из тысяч видео, сопоставленных с подробными описаниями и диалогами. Этот набор данных акцентирует внимание на пространственно-временном анализе и причинно-следственных связях, предоставляя ценный ресурс для обучения систем понимания видео, ориентированных на чат. Предварительные качественные эксперименты демонстрируют потенциал нашей системы в широком спектре видеоприложений и задают стандарт для будущих исследований. Наш код и данные доступны по адресу https://github.com/OpenGVLab/Ask-Anything.
English
In this study, we initiate an exploration into video understanding by
introducing VideoChat, an end-to-end chat-centric video understanding system.
It integrates video foundation models and large language models via a learnable
neural interface, excelling in spatiotemporal reasoning, event localization,
and causal relationship inference. To instructively tune this system, we
propose a video-centric instruction dataset, composed of thousands of videos
matched with detailed descriptions and conversations. This dataset emphasizes
spatiotemporal reasoning and causal relationships, providing a valuable asset
for training chat-centric video understanding systems. Preliminary qualitative
experiments reveal our system's potential across a broad spectrum of video
applications and set the standard for future research. Access our code and data
at https://github.com/OpenGVLab/Ask-Anything