MA-LMM: Memory-augmentiertes großes multimodales Modell für langfristiges Video-Verständnis
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding
April 8, 2024
Autoren: Bo He, Hengduo Li, Young Kyun Jang, Menglin Jia, Xuefei Cao, Ashish Shah, Abhinav Shrivastava, Ser-Nam Lim
cs.AI
Zusammenfassung
Mit dem Erfolg großer Sprachmodelle (LLMs) hat in letzter Zeit das Interesse an der Integration des Visionmodells in LLMs zur Entwicklung von Vision-Sprach-Grundlagenmodellen erheblich zugenommen. Allerdings können bestehende LLM-basierte große multimodale Modelle (z. B. Video-LLaMA, VideoChat) nur eine begrenzte Anzahl von Frames für das Verständnis kurzer Videos verarbeiten. In dieser Studie konzentrieren wir uns hauptsächlich darauf, ein effizientes und effektives Modell für das langfristige Videoverständnis zu entwerfen. Anstatt wie die meisten bestehenden Arbeiten mehr Frames gleichzeitig zu verarbeiten, schlagen wir vor, Videos auf kontinuierliche Weise zu verarbeiten und vergangene Videoinformationen in einer Speicherbank zu speichern. Dies ermöglicht es unserem Modell, historische Videoinhalte für langfristige Analysen zu referenzieren, ohne die Kontextlängenbeschränkungen oder GPU-Speicherlimits von LLMs zu überschreiten. Unsere Speicherbank kann nahtlos in aktuelle multimodale LLMs in einer Plug-and-Play-Weise integriert werden. Wir führen umfangreiche Experimente zu verschiedenen Videoverständnisaufgaben durch, wie z. B. das Verstehen von Langvideos, die Beantwortung von Videofragen und die Videobeschriftung, und unser Modell kann Spitzenleistungen über mehrere Datensätze hinweg erzielen. Der Code ist verfügbar unter https://boheumd.github.io/MA-LMM/.
English
With the success of large language models (LLMs), integrating the vision
model into LLMs to build vision-language foundation models has gained much more
interest recently. However, existing LLM-based large multimodal models (e.g.,
Video-LLaMA, VideoChat) can only take in a limited number of frames for short
video understanding. In this study, we mainly focus on designing an efficient
and effective model for long-term video understanding. Instead of trying to
process more frames simultaneously like most existing work, we propose to
process videos in an online manner and store past video information in a memory
bank. This allows our model to reference historical video content for long-term
analysis without exceeding LLMs' context length constraints or GPU memory
limits. Our memory bank can be seamlessly integrated into current multimodal
LLMs in an off-the-shelf manner. We conduct extensive experiments on various
video understanding tasks, such as long-video understanding, video question
answering, and video captioning, and our model can achieve state-of-the-art
performances across multiple datasets. Code available at
https://boheumd.github.io/MA-LMM/.Summary
AI-Generated Summary