MovieChat: De Tokens Densos para Memória Esparsa na Compreensão de Vídeos Longos
MovieChat: From Dense Token to Sparse Memory for Long Video Understanding
July 31, 2023
Autores: Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou, Feiyang Wu, Xun Guo, Tian Ye, Yan Lu, Jenq-Neng Hwang, Gaoang Wang
cs.AI
Resumo
Recentemente, a integração de modelos fundamentais de vídeo e modelos de linguagem de grande escala para construir um sistema de compreensão de vídeo superou as limitações de tarefas visuais pré-definidas específicas. No entanto, os sistemas existentes só conseguem processar vídeos com muito poucos quadros. Para vídeos longos, a complexidade computacional, o custo de memória e a conexão temporal de longo prazo permanecem como desafios. Inspirados pelo modelo de memória de Atkinson-Shiffrin, desenvolvemos um mecanismo de memória que inclui uma memória de curto prazo atualizada rapidamente e uma memória de longo prazo compacta e, portanto, sustentada. Utilizamos tokens em Transformers como portadores de memória. O MovieChat alcança desempenho de ponta na compreensão de vídeos longos.
English
Recently, integrating video foundation models and large language models to
build a video understanding system overcoming the limitations of specific
pre-defined vision tasks. Yet, existing systems can only handle videos with
very few frames. For long videos, the computation complexity, memory cost, and
long-term temporal connection are the remaining challenges. Inspired by
Atkinson-Shiffrin memory model, we develop an memory mechanism including a
rapidly updated short-term memory and a compact thus sustained long-term
memory. We employ tokens in Transformers as the carriers of memory. MovieChat
achieves state-of-the-art performace in long video understanding.