MovieChat : Des tokens denses à la mémoire éparse pour la compréhension de vidéos longues

papers.abstract

Récemment, l'intégration de modèles de base pour la vidéo et de grands modèles de langage a permis de construire un système de compréhension vidéo surmontant les limitations des tâches visuelles prédéfinies spécifiques. Cependant, les systèmes existants ne peuvent traiter que des vidéos avec très peu d'images. Pour les vidéos longues, la complexité computationnelle, le coût en mémoire et la connexion temporelle à long terme restent des défis majeurs. Inspirés par le modèle de mémoire d'Atkinson-Shiffrin, nous développons un mécanisme de mémoire incluant une mémoire à court terme mise à jour rapidement et une mémoire à long terme compacte et donc durable. Nous utilisons les tokens dans les Transformers comme supports de mémoire. MovieChat atteint des performances de pointe dans la compréhension des vidéos longues.

English

Recently, integrating video foundation models and large language models to build a video understanding system overcoming the limitations of specific pre-defined vision tasks. Yet, existing systems can only handle videos with very few frames. For long videos, the computation complexity, memory cost, and long-term temporal connection are the remaining challenges. Inspired by Atkinson-Shiffrin memory model, we develop an memory mechanism including a rapidly updated short-term memory and a compact thus sustained long-term memory. We employ tokens in Transformers as the carriers of memory. MovieChat achieves state-of-the-art performace in long video understanding.

MovieChat : Des tokens denses à la mémoire éparse pour la compréhension de vidéos longues

MovieChat: From Dense Token to Sparse Memory for Long Video Understanding

papers.abstract

Support