MA-LMM: Modelo Multimodal Grande Aumentado por Memória para Compreensão de Vídeos de Longo Prazo
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding
April 8, 2024
Autores: Bo He, Hengduo Li, Young Kyun Jang, Menglin Jia, Xuefei Cao, Ashish Shah, Abhinav Shrivastava, Ser-Nam Lim
cs.AI
Resumo
Com o sucesso dos grandes modelos de linguagem (LLMs), a integração de modelos de visão em LLMs para construir modelos fundamentais de visão e linguagem tem ganhado muito interesse recentemente. No entanto, os modelos multimodais baseados em LLM existentes (por exemplo, Video-LLaMA, VideoChat) só conseguem processar um número limitado de quadros para a compreensão de vídeos curtos. Neste estudo, focamos principalmente no design de um modelo eficiente e eficaz para a compreensão de vídeos de longo prazo. Em vez de tentar processar mais quadros simultaneamente, como a maioria dos trabalhos existentes, propomos processar vídeos de maneira online e armazenar informações passadas do vídeo em um banco de memória. Isso permite que nosso modelo consulte o conteúdo histórico do vídeo para análise de longo prazo sem exceder as restrições de comprimento de contexto dos LLMs ou os limites de memória da GPU. Nosso banco de memória pode ser integrado de forma direta aos LLMs multimodais atuais. Realizamos experimentos extensos em várias tarefas de compreensão de vídeo, como compreensão de vídeos longos, questionamento e resposta sobre vídeos e legendagem de vídeos, e nosso modelo pode alcançar desempenhos de ponta em múltiplos conjuntos de dados. O código está disponível em https://boheumd.github.io/MA-LMM/.
English
With the success of large language models (LLMs), integrating the vision
model into LLMs to build vision-language foundation models has gained much more
interest recently. However, existing LLM-based large multimodal models (e.g.,
Video-LLaMA, VideoChat) can only take in a limited number of frames for short
video understanding. In this study, we mainly focus on designing an efficient
and effective model for long-term video understanding. Instead of trying to
process more frames simultaneously like most existing work, we propose to
process videos in an online manner and store past video information in a memory
bank. This allows our model to reference historical video content for long-term
analysis without exceeding LLMs' context length constraints or GPU memory
limits. Our memory bank can be seamlessly integrated into current multimodal
LLMs in an off-the-shelf manner. We conduct extensive experiments on various
video understanding tasks, such as long-video understanding, video question
answering, and video captioning, and our model can achieve state-of-the-art
performances across multiple datasets. Code available at
https://boheumd.github.io/MA-LMM/.