ChatPaper.aiChatPaper

MA-LMM: Модель с большим количеством модальностей с памятью для долгосрочного понимания видео.

MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

April 8, 2024
Авторы: Bo He, Hengduo Li, Young Kyun Jang, Menglin Jia, Xuefei Cao, Ashish Shah, Abhinav Shrivastava, Ser-Nam Lim
cs.AI

Аннотация

С успехом крупных языковых моделей (LLM) внедрение модели зрения в LLM для создания моделей основы видео-языка недавно привлекло гораздо больше внимания. Однако существующие мультимодальные модели на основе LLM (например, Video-LLaMA, VideoChat) могут обрабатывать только ограниченное количество кадров для понимания коротких видео. В данном исследовании мы в основном сосредотачиваемся на разработке эффективной и эффективной модели для понимания видео в долгосрочной перспективе. Вместо попыток обрабатывать больше кадров одновременно, как это делается в большинстве существующих работ, мы предлагаем обрабатывать видео в режиме онлайн и сохранять прошлую видеоинформацию в банке памяти. Это позволяет нашей модели ссылаться на исторический видеоконтент для долгосрочного анализа без превышения ограничений на длину контекста LLM или ограничений по памяти GPU. Наш банк памяти может быть легко интегрирован в текущие мультимодальные LLM "из коробки". Мы проводим обширные эксперименты по различным задачам понимания видео, таким как понимание длинных видео, ответы на вопросы по видео и подписывание видео, и наша модель может достичь передовых результатов на нескольких наборах данных. Код доступен по адресу https://boheumd.github.io/MA-LMM/.
English
With the success of large language models (LLMs), integrating the vision model into LLMs to build vision-language foundation models has gained much more interest recently. However, existing LLM-based large multimodal models (e.g., Video-LLaMA, VideoChat) can only take in a limited number of frames for short video understanding. In this study, we mainly focus on designing an efficient and effective model for long-term video understanding. Instead of trying to process more frames simultaneously like most existing work, we propose to process videos in an online manner and store past video information in a memory bank. This allows our model to reference historical video content for long-term analysis without exceeding LLMs' context length constraints or GPU memory limits. Our memory bank can be seamlessly integrated into current multimodal LLMs in an off-the-shelf manner. We conduct extensive experiments on various video understanding tasks, such as long-video understanding, video question answering, and video captioning, and our model can achieve state-of-the-art performances across multiple datasets. Code available at https://boheumd.github.io/MA-LMM/.

Summary

AI-Generated Summary

PDF230December 15, 2024