Extensión de la Ventana de Contexto Visual: Una Nueva Perspectiva para la Comprensión de Videos Largos
Visual Context Window Extension: A New Perspective for Long Video Understanding
September 30, 2024
Autores: Hongchen Wei, Zhenzhong Chen
cs.AI
Resumen
Los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) han demostrado un rendimiento impresionante en tareas de comprensión de videos cortos, pero enfrentan grandes desafíos al aplicarse a la comprensión de videos largos. En contraste, los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) exhiben capacidades sobresalientes en modelar textos extensos. El trabajo existente intenta abordar este problema al introducir pares de video-texto largos durante el entrenamiento. Sin embargo, estos enfoques requieren recursos computacionales y de datos sustanciales. En este documento, abordamos el desafío de la comprensión de videos largos desde la perspectiva de las ventanas de contexto, con el objetivo de aplicar LMMs a tareas de videos largos sin necesidad de volver a entrenar en conjuntos de datos de videos largos. Primero realizamos un análisis detallado de por qué los LMMs preentrenados tienen dificultades para comprender contenido de video extenso, identificando que las discrepancias entre las modalidades visual y de lenguaje conducen a diferentes ventanas de contexto para los tokens visuales y de lenguaje, lo que dificulta extender directamente los tokens visuales para que coincidan con la ventana de contexto de lenguaje. Basándonos en esto, proponemos adaptar los LMMs para tareas de comprensión de videos largos mediante la extensión de la ventana de contexto visual, eliminando la necesidad de volver a entrenar en conjuntos de datos de videos largos a gran escala. Para mitigar aún más el consumo significativo de memoria causado por secuencias largas, introducimos una estrategia progresiva de agrupamiento de inferencia que ajusta selectivamente la resolución espacial de los incrustamientos de fotogramas, reduciendo el número de tokens visuales mientras se retiene información espacial importante. A lo largo de múltiples puntos de referencia de comprensión de videos largos, nuestro método mejora consistentemente el rendimiento a medida que aumenta el número de fotogramas de video. En el punto de referencia MLVU, nuestro método supera a GPT-4o, a pesar de que el tamaño de nuestro modelo es solo de 7B. Además, en el escenario de 256 fotogramas, nuestro método reduce el uso de memoria aproximadamente en un 45% en comparación con el valor base, sin introducir ninguna pérdida de rendimiento.
English
Large Multimodal Models (LMMs) have demonstrated impressive performance in
short video understanding tasks but face great challenges when applied to long
video understanding. In contrast, Large Language Models (LLMs) exhibit
outstanding capabilities in modeling long texts. Existing work attempts to
address this issue by introducing long video-text pairs during training.
However, these approaches require substantial computational and data resources.
In this paper, we tackle the challenge of long video understanding from the
perspective of context windows, aiming to apply LMMs to long video tasks
without retraining on long video datasets. We first conduct an in-depth
analysis of why pretrained LMMs struggle to understand lengthy video content,
identifying that discrepancies between visual and language modalities lead to
different context windows for visual and language tokens, making it difficult
to directly extend the visual tokens to match the language context window.
Based on this, we propose to adapt LMMs for long video understanding tasks by
extending the visual context window, eliminating the need for retraining on
large scalelong video datasets. To further mitigate the significant memory
consumption caused by long sequences, we introduce a progressive pooling
inference strategy that selectively adjusts the spatial resolution of frame
embeddings, reducing the number of visual tokens while retaining important
spatial information. Across multiple long video understanding benchmarks, our
method consistently improves the performance as the number of video frames
increases. On the MLVU benchmark, our method outperforms GPT-4o, even though
our model size is only 7B. Additionally, in the 256-frame setting, our method
reduces memory usage by approximately 45% compared to the baseline, without
introducing any performance loss.Summary
AI-Generated Summary