MA-LMM: 長期ビデオ理解のためのメモリ拡張型大規模マルチモーダルモデル
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding
April 8, 2024
著者: Bo He, Hengduo Li, Young Kyun Jang, Menglin Jia, Xuefei Cao, Ashish Shah, Abhinav Shrivastava, Ser-Nam Lim
cs.AI
要旨
大規模言語モデル(LLM)の成功に伴い、視覚モデルをLLMに統合して視覚言語基盤モデルを構築することに、最近大きな関心が寄せられています。しかし、既存のLLMベースの大規模マルチモーダルモデル(例:Video-LLaMA、VideoChat)は、短い動画理解のために限られた数のフレームしか取り込むことができません。本研究では、主に長期的な動画理解のための効率的かつ効果的なモデルの設計に焦点を当てています。既存の研究のようにより多くのフレームを同時に処理しようとするのではなく、動画をオンライン方式で処理し、過去の動画情報をメモリバンクに保存することを提案します。これにより、モデルはLLMのコンテキスト長制約やGPUメモリ制限を超えることなく、長期的な分析のために過去の動画コンテンツを参照することが可能になります。私たちのメモリバンクは、既存のマルチモーダルLLMにシームレスに統合することができます。長編動画理解、動画質問応答、動画キャプション生成など、さまざまな動画理解タスクで広範な実験を行い、私たちのモデルは複数のデータセットで最先端の性能を達成することができます。コードはhttps://boheumd.github.io/MA-LMM/で公開されています。
English
With the success of large language models (LLMs), integrating the vision
model into LLMs to build vision-language foundation models has gained much more
interest recently. However, existing LLM-based large multimodal models (e.g.,
Video-LLaMA, VideoChat) can only take in a limited number of frames for short
video understanding. In this study, we mainly focus on designing an efficient
and effective model for long-term video understanding. Instead of trying to
process more frames simultaneously like most existing work, we propose to
process videos in an online manner and store past video information in a memory
bank. This allows our model to reference historical video content for long-term
analysis without exceeding LLMs' context length constraints or GPU memory
limits. Our memory bank can be seamlessly integrated into current multimodal
LLMs in an off-the-shelf manner. We conduct extensive experiments on various
video understanding tasks, such as long-video understanding, video question
answering, and video captioning, and our model can achieve state-of-the-art
performances across multiple datasets. Code available at
https://boheumd.github.io/MA-LMM/.Summary
AI-Generated Summary