Extension de la fenêtre contextuelle visuelle : une nouvelle perspective pour la compréhension des longues vidéos

papers.abstract

Les grands modèles multimodaux (LMM) ont démontré des performances impressionnantes dans les tâches de compréhension de courtes vidéos, mais rencontrent de grands défis lorsqu'ils sont appliqués à la compréhension de longues vidéos. En revanche, les grands modèles de langage (LLM) présentent des capacités exceptionnelles dans la modélisation de longs textes. Les travaux existants tentent de résoudre ce problème en introduisant des paires vidéo-texte longues pendant l'entraînement. Cependant, ces approches nécessitent des ressources computationnelles et des données substantielles. Dans cet article, nous abordons le défi de la compréhension de longues vidéos du point de vue des fenêtres contextuelles, visant à appliquer les LMM aux tâches de longues vidéos sans réentraînement sur des ensembles de données vidéo longues. Nous menons d'abord une analyse approfondie des raisons pour lesquelles les LMM pré-entraînés ont du mal à comprendre le contenu vidéo étendu, identifiant que les divergences entre les modalités visuelle et linguistique entraînent des fenêtres contextuelles différentes pour les jetons visuels et linguistiques, rendant difficile l'extension directe des jetons visuels pour correspondre à la fenêtre contextuelle linguistique. Sur cette base, nous proposons d'adapter les LMM aux tâches de compréhension de longues vidéos en étendant la fenêtre contextuelle visuelle, éliminant ainsi la nécessité de réentraîner sur de vastes ensembles de données vidéo longues. Pour atténuer davantage la consommation significative de mémoire causée par de longues séquences, nous introduisons une stratégie d'inférence de regroupement progressif qui ajuste sélectivement la résolution spatiale des plongements de trame, réduisant le nombre de jetons visuels tout en conservant des informations spatiales importantes. À travers plusieurs référentiels de compréhension de longues vidéos, notre méthode améliore de manière constante les performances à mesure que le nombre de trames vidéo augmente. Sur le référentiel MLVU, notre méthode surpasse GPT-4o, même si la taille de notre modèle n'est que de 7B. De plus, dans le cadre de 256 trames, notre méthode réduit l'utilisation de mémoire d'environ 45 % par rapport à la référence, sans introduire de perte de performance.

English

Large Multimodal Models (LMMs) have demonstrated impressive performance in short video understanding tasks but face great challenges when applied to long video understanding. In contrast, Large Language Models (LLMs) exhibit outstanding capabilities in modeling long texts. Existing work attempts to address this issue by introducing long video-text pairs during training. However, these approaches require substantial computational and data resources. In this paper, we tackle the challenge of long video understanding from the perspective of context windows, aiming to apply LMMs to long video tasks without retraining on long video datasets. We first conduct an in-depth analysis of why pretrained LMMs struggle to understand lengthy video content, identifying that discrepancies between visual and language modalities lead to different context windows for visual and language tokens, making it difficult to directly extend the visual tokens to match the language context window. Based on this, we propose to adapt LMMs for long video understanding tasks by extending the visual context window, eliminating the need for retraining on large scalelong video datasets. To further mitigate the significant memory consumption caused by long sequences, we introduce a progressive pooling inference strategy that selectively adjusts the spatial resolution of frame embeddings, reducing the number of visual tokens while retaining important spatial information. Across multiple long video understanding benchmarks, our method consistently improves the performance as the number of video frames increases. On the MLVU benchmark, our method outperforms GPT-4o, even though our model size is only 7B. Additionally, in the 256-frame setting, our method reduces memory usage by approximately 45% compared to the baseline, without introducing any performance loss.

Extension de la fenêtre contextuelle visuelle : une nouvelle perspective pour la compréhension des longues vidéos

Visual Context Window Extension: A New Perspective for Long Video Understanding

papers.abstract

Support