MovieChat : Des tokens denses à la mémoire éparse pour la compréhension de vidéos longues
MovieChat: From Dense Token to Sparse Memory for Long Video Understanding
July 31, 2023
Auteurs: Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou, Feiyang Wu, Xun Guo, Tian Ye, Yan Lu, Jenq-Neng Hwang, Gaoang Wang
cs.AI
Résumé
Récemment, l'intégration de modèles de base pour la vidéo et de grands modèles de langage a permis de construire un système de compréhension vidéo surmontant les limitations des tâches visuelles prédéfinies spécifiques. Cependant, les systèmes existants ne peuvent traiter que des vidéos avec très peu d'images. Pour les vidéos longues, la complexité computationnelle, le coût en mémoire et la connexion temporelle à long terme restent des défis majeurs. Inspirés par le modèle de mémoire d'Atkinson-Shiffrin, nous développons un mécanisme de mémoire incluant une mémoire à court terme mise à jour rapidement et une mémoire à long terme compacte et donc durable. Nous utilisons les tokens dans les Transformers comme supports de mémoire. MovieChat atteint des performances de pointe dans la compréhension des vidéos longues.
English
Recently, integrating video foundation models and large language models to
build a video understanding system overcoming the limitations of specific
pre-defined vision tasks. Yet, existing systems can only handle videos with
very few frames. For long videos, the computation complexity, memory cost, and
long-term temporal connection are the remaining challenges. Inspired by
Atkinson-Shiffrin memory model, we develop an memory mechanism including a
rapidly updated short-term memory and a compact thus sustained long-term
memory. We employ tokens in Transformers as the carriers of memory. MovieChat
achieves state-of-the-art performace in long video understanding.