Estensione della Finestra di Contesto Visivo: Una Nuova Prospettiva per la Comprensione di Video Lunghi

Abstract

I Large Multimodal Models (LMM) hanno dimostrato un'ottima performance nei compiti di comprensione di brevi video ma affrontano grandi sfide quando applicati alla comprensione di video lunghi. Al contrario, i Large Language Models (LLM) mostrano capacità eccezionali nel modellare testi lunghi. Lavori esistenti cercano di affrontare questo problema introducendo coppie video-testo lunghi durante l'addestramento. Tuttavia, questi approcci richiedono consistenti risorse computazionali e di dati. In questo articolo, affrontiamo la sfida della comprensione di video lunghi dal punto di vista delle finestre di contesto, con l'obiettivo di applicare i LMM ai compiti di video lunghi senza riallenare su dataset video lunghi. Conduciamo innanzitutto un'analisi approfondita sul motivo per cui i LMM preaddestrati faticano a comprendere contenuti video lunghi, identificando che le discrepanze tra le modalità visiva e linguistica portano a diverse finestre di contesto per i token visivi e linguistici, rendendo difficile estendere direttamente i token visivi per adattarli alla finestra di contesto linguistica. Sulla base di ciò, proponiamo di adattare i LMM ai compiti di comprensione di video lunghi estendendo la finestra di contesto visivo, eliminando la necessità di riallenamento su grandi dataset video lunghi. Per mitigare ulteriormente il significativo consumo di memoria causato da sequenze lunghe, introduciamo una strategia di inferenza di raggruppamento progressivo che regola selettivamente la risoluzione spaziale degli embedding dei frame, riducendo il numero di token visivi mantenendo informazioni spaziali importanti. Attraverso diversi benchmark di comprensione di video lunghi, il nostro metodo migliora costantemente le prestazioni all'aumentare del numero di frame video. Sul benchmark MLVU, il nostro metodo supera GPT-4o, anche se la dimensione del nostro modello è solo di 7B. Inoltre, nell'impostazione a 256 frame, il nostro metodo riduce l'uso della memoria di circa il 45% rispetto al valore di base, senza introdurre alcuna perdita di prestazioni.

English

Large Multimodal Models (LMMs) have demonstrated impressive performance in short video understanding tasks but face great challenges when applied to long video understanding. In contrast, Large Language Models (LLMs) exhibit outstanding capabilities in modeling long texts. Existing work attempts to address this issue by introducing long video-text pairs during training. However, these approaches require substantial computational and data resources. In this paper, we tackle the challenge of long video understanding from the perspective of context windows, aiming to apply LMMs to long video tasks without retraining on long video datasets. We first conduct an in-depth analysis of why pretrained LMMs struggle to understand lengthy video content, identifying that discrepancies between visual and language modalities lead to different context windows for visual and language tokens, making it difficult to directly extend the visual tokens to match the language context window. Based on this, we propose to adapt LMMs for long video understanding tasks by extending the visual context window, eliminating the need for retraining on large scalelong video datasets. To further mitigate the significant memory consumption caused by long sequences, we introduce a progressive pooling inference strategy that selectively adjusts the spatial resolution of frame embeddings, reducing the number of visual tokens while retaining important spatial information. Across multiple long video understanding benchmarks, our method consistently improves the performance as the number of video frames increases. On the MLVU benchmark, our method outperforms GPT-4o, even though our model size is only 7B. Additionally, in the 256-frame setting, our method reduces memory usage by approximately 45% compared to the baseline, without introducing any performance loss.

Estensione della Finestra di Contesto Visivo: Una Nuova Prospettiva per la Comprensione di Video Lunghi

Visual Context Window Extension: A New Perspective for Long Video Understanding

Abstract

Support