MA-LMM : Modèle Multimodal de Grande Taille Augmenté par Mémoire pour la Compréhension de Vidéos à Long Terme
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding
April 8, 2024
Auteurs: Bo He, Hengduo Li, Young Kyun Jang, Menglin Jia, Xuefei Cao, Ashish Shah, Abhinav Shrivastava, Ser-Nam Lim
cs.AI
Résumé
Avec le succès des grands modèles de langage (LLMs), l'intégration de modèles de vision dans les LLMs pour construire des modèles de base vision-langage a suscité un intérêt croissant récemment. Cependant, les modèles multimodaux de grande taille basés sur les LLMs existants (par exemple, Video-LLaMA, VideoChat) ne peuvent traiter qu'un nombre limité d'images pour la compréhension de vidéos courtes. Dans cette étude, nous nous concentrons principalement sur la conception d'un modèle efficace et efficient pour la compréhension de vidéos longues. Plutôt que de tenter de traiter simultanément plus d'images comme la plupart des travaux existants, nous proposons de traiter les vidéos de manière en ligne et de stocker les informations vidéo passées dans une banque de mémoire. Cela permet à notre modèle de référencer le contenu vidéo historique pour une analyse à long terme sans dépasser les contraintes de longueur de contexte des LLMs ou les limites de mémoire GPU. Notre banque de mémoire peut être intégrée de manière transparente dans les LLMs multimodaux actuels, prêts à l'emploi. Nous menons des expériences approfondies sur diverses tâches de compréhension vidéo, telles que la compréhension de vidéos longues, la réponse à des questions sur des vidéos et la génération de légendes vidéo, et notre modèle peut atteindre des performances de pointe sur plusieurs ensembles de données. Le code est disponible à l'adresse suivante : https://boheumd.github.io/MA-LMM/.
English
With the success of large language models (LLMs), integrating the vision
model into LLMs to build vision-language foundation models has gained much more
interest recently. However, existing LLM-based large multimodal models (e.g.,
Video-LLaMA, VideoChat) can only take in a limited number of frames for short
video understanding. In this study, we mainly focus on designing an efficient
and effective model for long-term video understanding. Instead of trying to
process more frames simultaneously like most existing work, we propose to
process videos in an online manner and store past video information in a memory
bank. This allows our model to reference historical video content for long-term
analysis without exceeding LLMs' context length constraints or GPU memory
limits. Our memory bank can be seamlessly integrated into current multimodal
LLMs in an off-the-shelf manner. We conduct extensive experiments on various
video understanding tasks, such as long-video understanding, video question
answering, and video captioning, and our model can achieve state-of-the-art
performances across multiple datasets. Code available at
https://boheumd.github.io/MA-LMM/.Summary
AI-Generated Summary