MA-LMM: Modello Multimodale di Grandi Dimensioni Aumentato con Memoria per la Comprensione di Video a Lungo Termine

Abstract

Con il successo dei grandi modelli linguistici (LLM), l'integrazione di modelli visivi negli LLM per costruire modelli di base visione-linguaggio ha recentemente suscitato un interesse crescente. Tuttavia, gli attuali modelli multimodali di grandi dimensioni basati su LLM (ad esempio, Video-LLaMA, VideoChat) possono elaborare solo un numero limitato di fotogrammi per la comprensione di video brevi. In questo studio, ci concentriamo principalmente sulla progettazione di un modello efficiente ed efficace per la comprensione di video a lungo termine. Invece di cercare di elaborare più fotogrammi simultaneamente come nella maggior parte dei lavori esistenti, proponiamo di elaborare i video in modo online e di memorizzare le informazioni video passate in una banca della memoria. Ciò consente al nostro modello di fare riferimento al contenuto video storico per analisi a lungo termine senza superare i vincoli di lunghezza del contesto degli LLM o i limiti della memoria GPU. La nostra banca della memoria può essere integrata in modo immediato negli attuali LLM multimodali. Condividiamo esperimenti estesi su varie attività di comprensione video, come la comprensione di video lunghi, il question answering su video e la generazione di didascalie video, e il nostro modello può raggiungere prestazioni all'avanguardia su più dataset. Il codice è disponibile all'indirizzo https://boheumd.github.io/MA-LMM/.

English

With the success of large language models (LLMs), integrating the vision model into LLMs to build vision-language foundation models has gained much more interest recently. However, existing LLM-based large multimodal models (e.g., Video-LLaMA, VideoChat) can only take in a limited number of frames for short video understanding. In this study, we mainly focus on designing an efficient and effective model for long-term video understanding. Instead of trying to process more frames simultaneously like most existing work, we propose to process videos in an online manner and store past video information in a memory bank. This allows our model to reference historical video content for long-term analysis without exceeding LLMs' context length constraints or GPU memory limits. Our memory bank can be seamlessly integrated into current multimodal LLMs in an off-the-shelf manner. We conduct extensive experiments on various video understanding tasks, such as long-video understanding, video question answering, and video captioning, and our model can achieve state-of-the-art performances across multiple datasets. Code available at https://boheumd.github.io/MA-LMM/.

MA-LMM: Modello Multimodale di Grandi Dimensioni Aumentato con Memoria per la Comprensione di Video a Lungo Termine

MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

Abstract

Support