VideoChat: Compreensão de Vídeo Centrada em Chat
VideoChat: Chat-Centric Video Understanding
May 10, 2023
Autores: KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, Yu Qiao
cs.AI
Resumo
Neste estudo, iniciamos uma exploração sobre a compreensão de vídeos ao introduzir o VideoChat, um sistema de compreensão de vídeos centrado em chat de ponta a ponta. Ele integra modelos fundamentais de vídeo e modelos de linguagem de grande escala por meio de uma interface neural aprendível, destacando-se no raciocínio espaço-temporal, na localização de eventos e na inferência de relações causais. Para ajustar este sistema de forma instrutiva, propomos um conjunto de dados de instruções centrado em vídeos, composto por milhares de vídeos associados a descrições detalhadas e conversas. Este conjunto de dados enfatiza o raciocínio espaço-temporal e as relações causais, fornecendo um recurso valioso para o treinamento de sistemas de compreensão de vídeos centrados em chat. Experimentos qualitativos preliminares revelam o potencial do nosso sistema em um amplo espectro de aplicações de vídeo e estabelecem o padrão para pesquisas futuras. Acesse nosso código e dados em https://github.com/OpenGVLab/Ask-Anything.
English
In this study, we initiate an exploration into video understanding by
introducing VideoChat, an end-to-end chat-centric video understanding system.
It integrates video foundation models and large language models via a learnable
neural interface, excelling in spatiotemporal reasoning, event localization,
and causal relationship inference. To instructively tune this system, we
propose a video-centric instruction dataset, composed of thousands of videos
matched with detailed descriptions and conversations. This dataset emphasizes
spatiotemporal reasoning and causal relationships, providing a valuable asset
for training chat-centric video understanding systems. Preliminary qualitative
experiments reveal our system's potential across a broad spectrum of video
applications and set the standard for future research. Access our code and data
at https://github.com/OpenGVLab/Ask-Anything