Extension de la fenêtre contextuelle visuelle : une nouvelle perspective pour la compréhension des longues vidéos
Visual Context Window Extension: A New Perspective for Long Video Understanding
September 30, 2024
Auteurs: Hongchen Wei, Zhenzhong Chen
cs.AI
Résumé
Les grands modèles multimodaux (LMM) ont démontré des performances impressionnantes dans les tâches de compréhension de courtes vidéos, mais rencontrent de grands défis lorsqu'ils sont appliqués à la compréhension de longues vidéos. En revanche, les grands modèles de langage (LLM) présentent des capacités exceptionnelles dans la modélisation de longs textes. Les travaux existants tentent de résoudre ce problème en introduisant des paires vidéo-texte longues pendant l'entraînement. Cependant, ces approches nécessitent des ressources computationnelles et des données substantielles. Dans cet article, nous abordons le défi de la compréhension de longues vidéos du point de vue des fenêtres contextuelles, visant à appliquer les LMM aux tâches de longues vidéos sans réentraînement sur des ensembles de données vidéo longues. Nous menons d'abord une analyse approfondie des raisons pour lesquelles les LMM pré-entraînés ont du mal à comprendre le contenu vidéo étendu, identifiant que les divergences entre les modalités visuelle et linguistique entraînent des fenêtres contextuelles différentes pour les jetons visuels et linguistiques, rendant difficile l'extension directe des jetons visuels pour correspondre à la fenêtre contextuelle linguistique. Sur cette base, nous proposons d'adapter les LMM aux tâches de compréhension de longues vidéos en étendant la fenêtre contextuelle visuelle, éliminant ainsi la nécessité de réentraîner sur de vastes ensembles de données vidéo longues. Pour atténuer davantage la consommation significative de mémoire causée par de longues séquences, nous introduisons une stratégie d'inférence de regroupement progressif qui ajuste sélectivement la résolution spatiale des plongements de trame, réduisant le nombre de jetons visuels tout en conservant des informations spatiales importantes. À travers plusieurs référentiels de compréhension de longues vidéos, notre méthode améliore de manière constante les performances à mesure que le nombre de trames vidéo augmente. Sur le référentiel MLVU, notre méthode surpasse GPT-4o, même si la taille de notre modèle n'est que de 7B. De plus, dans le cadre de 256 trames, notre méthode réduit l'utilisation de mémoire d'environ 45 % par rapport à la référence, sans introduire de perte de performance.
English
Large Multimodal Models (LMMs) have demonstrated impressive performance in
short video understanding tasks but face great challenges when applied to long
video understanding. In contrast, Large Language Models (LLMs) exhibit
outstanding capabilities in modeling long texts. Existing work attempts to
address this issue by introducing long video-text pairs during training.
However, these approaches require substantial computational and data resources.
In this paper, we tackle the challenge of long video understanding from the
perspective of context windows, aiming to apply LMMs to long video tasks
without retraining on long video datasets. We first conduct an in-depth
analysis of why pretrained LMMs struggle to understand lengthy video content,
identifying that discrepancies between visual and language modalities lead to
different context windows for visual and language tokens, making it difficult
to directly extend the visual tokens to match the language context window.
Based on this, we propose to adapt LMMs for long video understanding tasks by
extending the visual context window, eliminating the need for retraining on
large scalelong video datasets. To further mitigate the significant memory
consumption caused by long sequences, we introduce a progressive pooling
inference strategy that selectively adjusts the spatial resolution of frame
embeddings, reducing the number of visual tokens while retaining important
spatial information. Across multiple long video understanding benchmarks, our
method consistently improves the performance as the number of video frames
increases. On the MLVU benchmark, our method outperforms GPT-4o, even though
our model size is only 7B. Additionally, in the 256-frame setting, our method
reduces memory usage by approximately 45% compared to the baseline, without
introducing any performance loss.Summary
AI-Generated Summary