Estensione della Finestra di Contesto Visivo: Una Nuova Prospettiva per la Comprensione di Video Lunghi
Visual Context Window Extension: A New Perspective for Long Video Understanding
September 30, 2024
Autori: Hongchen Wei, Zhenzhong Chen
cs.AI
Abstract
I Large Multimodal Models (LMM) hanno dimostrato un'ottima performance nei compiti di comprensione di brevi video ma affrontano grandi sfide quando applicati alla comprensione di video lunghi. Al contrario, i Large Language Models (LLM) mostrano capacità eccezionali nel modellare testi lunghi. Lavori esistenti cercano di affrontare questo problema introducendo coppie video-testo lunghi durante l'addestramento. Tuttavia, questi approcci richiedono consistenti risorse computazionali e di dati. In questo articolo, affrontiamo la sfida della comprensione di video lunghi dal punto di vista delle finestre di contesto, con l'obiettivo di applicare i LMM ai compiti di video lunghi senza riallenare su dataset video lunghi. Conduciamo innanzitutto un'analisi approfondita sul motivo per cui i LMM preaddestrati faticano a comprendere contenuti video lunghi, identificando che le discrepanze tra le modalità visiva e linguistica portano a diverse finestre di contesto per i token visivi e linguistici, rendendo difficile estendere direttamente i token visivi per adattarli alla finestra di contesto linguistica. Sulla base di ciò, proponiamo di adattare i LMM ai compiti di comprensione di video lunghi estendendo la finestra di contesto visivo, eliminando la necessità di riallenamento su grandi dataset video lunghi. Per mitigare ulteriormente il significativo consumo di memoria causato da sequenze lunghe, introduciamo una strategia di inferenza di raggruppamento progressivo che regola selettivamente la risoluzione spaziale degli embedding dei frame, riducendo il numero di token visivi mantenendo informazioni spaziali importanti. Attraverso diversi benchmark di comprensione di video lunghi, il nostro metodo migliora costantemente le prestazioni all'aumentare del numero di frame video. Sul benchmark MLVU, il nostro metodo supera GPT-4o, anche se la dimensione del nostro modello è solo di 7B. Inoltre, nell'impostazione a 256 frame, il nostro metodo riduce l'uso della memoria di circa il 45% rispetto al valore di base, senza introdurre alcuna perdita di prestazioni.
English
Large Multimodal Models (LMMs) have demonstrated impressive performance in
short video understanding tasks but face great challenges when applied to long
video understanding. In contrast, Large Language Models (LLMs) exhibit
outstanding capabilities in modeling long texts. Existing work attempts to
address this issue by introducing long video-text pairs during training.
However, these approaches require substantial computational and data resources.
In this paper, we tackle the challenge of long video understanding from the
perspective of context windows, aiming to apply LMMs to long video tasks
without retraining on long video datasets. We first conduct an in-depth
analysis of why pretrained LMMs struggle to understand lengthy video content,
identifying that discrepancies between visual and language modalities lead to
different context windows for visual and language tokens, making it difficult
to directly extend the visual tokens to match the language context window.
Based on this, we propose to adapt LMMs for long video understanding tasks by
extending the visual context window, eliminating the need for retraining on
large scalelong video datasets. To further mitigate the significant memory
consumption caused by long sequences, we introduce a progressive pooling
inference strategy that selectively adjusts the spatial resolution of frame
embeddings, reducing the number of visual tokens while retaining important
spatial information. Across multiple long video understanding benchmarks, our
method consistently improves the performance as the number of video frames
increases. On the MLVU benchmark, our method outperforms GPT-4o, even though
our model size is only 7B. Additionally, in the 256-frame setting, our method
reduces memory usage by approximately 45% compared to the baseline, without
introducing any performance loss.