Extensión de la Ventana de Contexto Visual: Una Nueva Perspectiva para la Comprensión de Videos Largos

Resumen

Los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) han demostrado un rendimiento impresionante en tareas de comprensión de videos cortos, pero enfrentan grandes desafíos al aplicarse a la comprensión de videos largos. En contraste, los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) exhiben capacidades sobresalientes en modelar textos extensos. El trabajo existente intenta abordar este problema al introducir pares de video-texto largos durante el entrenamiento. Sin embargo, estos enfoques requieren recursos computacionales y de datos sustanciales. En este documento, abordamos el desafío de la comprensión de videos largos desde la perspectiva de las ventanas de contexto, con el objetivo de aplicar LMMs a tareas de videos largos sin necesidad de volver a entrenar en conjuntos de datos de videos largos. Primero realizamos un análisis detallado de por qué los LMMs preentrenados tienen dificultades para comprender contenido de video extenso, identificando que las discrepancias entre las modalidades visual y de lenguaje conducen a diferentes ventanas de contexto para los tokens visuales y de lenguaje, lo que dificulta extender directamente los tokens visuales para que coincidan con la ventana de contexto de lenguaje. Basándonos en esto, proponemos adaptar los LMMs para tareas de comprensión de videos largos mediante la extensión de la ventana de contexto visual, eliminando la necesidad de volver a entrenar en conjuntos de datos de videos largos a gran escala. Para mitigar aún más el consumo significativo de memoria causado por secuencias largas, introducimos una estrategia progresiva de agrupamiento de inferencia que ajusta selectivamente la resolución espacial de los incrustamientos de fotogramas, reduciendo el número de tokens visuales mientras se retiene información espacial importante. A lo largo de múltiples puntos de referencia de comprensión de videos largos, nuestro método mejora consistentemente el rendimiento a medida que aumenta el número de fotogramas de video. En el punto de referencia MLVU, nuestro método supera a GPT-4o, a pesar de que el tamaño de nuestro modelo es solo de 7B. Además, en el escenario de 256 fotogramas, nuestro método reduce el uso de memoria aproximadamente en un 45% en comparación con el valor base, sin introducir ninguna pérdida de rendimiento.

English

Large Multimodal Models (LMMs) have demonstrated impressive performance in short video understanding tasks but face great challenges when applied to long video understanding. In contrast, Large Language Models (LLMs) exhibit outstanding capabilities in modeling long texts. Existing work attempts to address this issue by introducing long video-text pairs during training. However, these approaches require substantial computational and data resources. In this paper, we tackle the challenge of long video understanding from the perspective of context windows, aiming to apply LMMs to long video tasks without retraining on long video datasets. We first conduct an in-depth analysis of why pretrained LMMs struggle to understand lengthy video content, identifying that discrepancies between visual and language modalities lead to different context windows for visual and language tokens, making it difficult to directly extend the visual tokens to match the language context window. Based on this, we propose to adapt LMMs for long video understanding tasks by extending the visual context window, eliminating the need for retraining on large scalelong video datasets. To further mitigate the significant memory consumption caused by long sequences, we introduce a progressive pooling inference strategy that selectively adjusts the spatial resolution of frame embeddings, reducing the number of visual tokens while retaining important spatial information. Across multiple long video understanding benchmarks, our method consistently improves the performance as the number of video frames increases. On the MLVU benchmark, our method outperforms GPT-4o, even though our model size is only 7B. Additionally, in the 256-frame setting, our method reduces memory usage by approximately 45% compared to the baseline, without introducing any performance loss.

Extensión de la Ventana de Contexto Visual: Una Nueva Perspectiva para la Comprensión de Videos Largos

Visual Context Window Extension: A New Perspective for Long Video Understanding

Resumen

Summary

Support