MA-LMM: Modelo Multimodal Grande Aumentado con Memoria para la Comprensión de Videos a Largo Plazo
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding
April 8, 2024
Autores: Bo He, Hengduo Li, Young Kyun Jang, Menglin Jia, Xuefei Cao, Ashish Shah, Abhinav Shrivastava, Ser-Nam Lim
cs.AI
Resumen
Con el éxito de los modelos de lenguaje de gran escala (LLMs), la integración de modelos de visión en LLMs para construir modelos fundamentales de visión y lenguaje ha ganado mucho interés recientemente. Sin embargo, los modelos multimodales de gran escala basados en LLMs existentes (por ejemplo, Video-LLaMA, VideoChat) solo pueden procesar un número limitado de fotogramas para la comprensión de videos cortos. En este estudio, nos centramos principalmente en diseñar un modelo eficiente y efectivo para la comprensión de videos a largo plazo. En lugar de intentar procesar más fotogramas simultáneamente como la mayoría de los trabajos existentes, proponemos procesar videos de manera en línea y almacenar la información de videos pasados en un banco de memoria. Esto permite que nuestro modelo haga referencia al contenido histórico de video para análisis a largo plazo sin exceder las limitaciones de longitud de contexto de los LLMs o los límites de memoria de la GPU. Nuestro banco de memoria puede integrarse sin problemas en los LLMs multimodales actuales de manera inmediata. Realizamos extensos experimentos en diversas tareas de comprensión de videos, como la comprensión de videos largos, la respuesta a preguntas sobre videos y la generación de subtítulos de videos, y nuestro modelo puede alcanzar un rendimiento de vanguardia en múltiples conjuntos de datos. El código está disponible en https://boheumd.github.io/MA-LMM/.
English
With the success of large language models (LLMs), integrating the vision
model into LLMs to build vision-language foundation models has gained much more
interest recently. However, existing LLM-based large multimodal models (e.g.,
Video-LLaMA, VideoChat) can only take in a limited number of frames for short
video understanding. In this study, we mainly focus on designing an efficient
and effective model for long-term video understanding. Instead of trying to
process more frames simultaneously like most existing work, we propose to
process videos in an online manner and store past video information in a memory
bank. This allows our model to reference historical video content for long-term
analysis without exceeding LLMs' context length constraints or GPU memory
limits. Our memory bank can be seamlessly integrated into current multimodal
LLMs in an off-the-shelf manner. We conduct extensive experiments on various
video understanding tasks, such as long-video understanding, video question
answering, and video captioning, and our model can achieve state-of-the-art
performances across multiple datasets. Code available at
https://boheumd.github.io/MA-LMM/.