MA-LMM: Geheugen-versterkt groot multimodaal model voor langetermijnvideo-begrip
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding
April 8, 2024
Auteurs: Bo He, Hengduo Li, Young Kyun Jang, Menglin Jia, Xuefei Cao, Ashish Shah, Abhinav Shrivastava, Ser-Nam Lim
cs.AI
Samenvatting
Met het succes van grote taalmodelen (LLMs) is de integratie van visuele modellen in LLMs om visie-taal fundamentele modellen te bouwen de laatste tijd veel meer in de belangstelling komen te staan. Bestaande op LLM gebaseerde grote multimodale modellen (bijv. Video-LLaMA, VideoChat) kunnen echter slechts een beperkt aantal frames verwerken voor kortetermijnvideo-begrip. In deze studie richten we ons voornamelijk op het ontwerpen van een efficiënt en effectief model voor langetermijnvideo-begrip. In plaats van te proberen meer frames tegelijkertijd te verwerken, zoals de meeste bestaande werken doen, stellen we voor om video's op een online manier te verwerken en informatie uit eerdere video's op te slaan in een geheugenbank. Hierdoor kan ons model historische video-inhoud raadplegen voor langetermijnanalyse zonder de contextlengtebeperkingen van LLMs of de GPU-geheugenlimieten te overschrijden. Onze geheugenbank kan naadloos worden geïntegreerd in huidige multimodale LLMs op een kant-en-klare manier. We voeren uitgebreide experimenten uit op verschillende video-begriptaken, zoals langetermijnvideo-begrip, video-vraagbeantwoording en video-ondertiteling, en ons model kan state-of-the-art prestaties behalen op meerdere datasets. Code is beschikbaar op https://boheumd.github.io/MA-LMM/.
English
With the success of large language models (LLMs), integrating the vision
model into LLMs to build vision-language foundation models has gained much more
interest recently. However, existing LLM-based large multimodal models (e.g.,
Video-LLaMA, VideoChat) can only take in a limited number of frames for short
video understanding. In this study, we mainly focus on designing an efficient
and effective model for long-term video understanding. Instead of trying to
process more frames simultaneously like most existing work, we propose to
process videos in an online manner and store past video information in a memory
bank. This allows our model to reference historical video content for long-term
analysis without exceeding LLMs' context length constraints or GPU memory
limits. Our memory bank can be seamlessly integrated into current multimodal
LLMs in an off-the-shelf manner. We conduct extensive experiments on various
video understanding tasks, such as long-video understanding, video question
answering, and video captioning, and our model can achieve state-of-the-art
performances across multiple datasets. Code available at
https://boheumd.github.io/MA-LMM/.