MovieChat: Da Token Densi a Memoria Sparsa per la Comprensione di Video Lunghi
MovieChat: From Dense Token to Sparse Memory for Long Video Understanding
July 31, 2023
Autori: Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou, Feiyang Wu, Xun Guo, Tian Ye, Yan Lu, Jenq-Neng Hwang, Gaoang Wang
cs.AI
Abstract
Recentemente, l'integrazione di modelli di base per i video e di modelli linguistici di grandi dimensioni ha permesso di costruire un sistema di comprensione video che supera i limiti dei compiti visivi predefiniti. Tuttavia, i sistemi esistenti possono gestire solo video con un numero molto ridotto di fotogrammi. Per i video lunghi, la complessità computazionale, il costo della memoria e la connessione temporale a lungo termine rimangono sfide aperte. Ispirati dal modello di memoria di Atkinson-Shiffrin, abbiamo sviluppato un meccanismo di memoria che include una memoria a breve termine aggiornata rapidamente e una memoria a lungo termine compatta e quindi sostenuta. Utilizziamo i token nei Transformer come vettori della memoria. MovieChat raggiunge prestazioni all'avanguardia nella comprensione di video lunghi.
English
Recently, integrating video foundation models and large language models to
build a video understanding system overcoming the limitations of specific
pre-defined vision tasks. Yet, existing systems can only handle videos with
very few frames. For long videos, the computation complexity, memory cost, and
long-term temporal connection are the remaining challenges. Inspired by
Atkinson-Shiffrin memory model, we develop an memory mechanism including a
rapidly updated short-term memory and a compact thus sustained long-term
memory. We employ tokens in Transformers as the carriers of memory. MovieChat
achieves state-of-the-art performace in long video understanding.