Uitbreiding van het Visuele Contextvenster: Een Nieuw Perspectief voor het Begrijpen van Lange Video's
Visual Context Window Extension: A New Perspective for Long Video Understanding
September 30, 2024
Auteurs: Hongchen Wei, Zhenzhong Chen
cs.AI
Samenvatting
Grote multimodale modellen (LMM's) hebben indrukwekkende prestaties aangetoond bij taken voor het begrijpen van korte video's, maar staan voor grote uitdagingen wanneer ze worden toegepast op het begrijpen van lange video's. Daarentegen vertonen grote taalmodellen (LLM's) uitstekende mogelijkheden om lange teksten te modelleren. Bestaand werk probeert dit probleem aan te pakken door lange video-tekstparen tijdens de training te introduceren. Deze benaderingen vereisen echter aanzienlijke rekenkracht en gegevensbronnen. In dit artikel gaan we de uitdaging van het begrijpen van lange video's aan vanuit het perspectief van contextvensters, met als doel LMM's toe te passen op lange videotaken zonder opnieuw te trainen op lange videodatasets. We voeren eerst een diepgaande analyse uit van waarom voorgetrainde LMM's moeite hebben met het begrijpen van uitgebreide videomateriaal, waarbij we vaststellen dat verschillen tussen visuele en taalmodaliteiten leiden tot verschillende contextvensters voor visuele en taaltokens, waardoor het moeilijk is om de visuele tokens rechtstreeks uit te breiden om overeen te komen met het taalcontextvenster. Op basis hiervan stellen we voor om LMM's aan te passen voor taken voor het begrijpen van lange video's door het visuele contextvenster uit te breiden, waardoor het opnieuw trainen op grootschalige lange videodatasets overbodig wordt. Om de aanzienlijke geheugenconsumptie veroorzaakt door lange sequenties verder te verminderen, introduceren we een progressieve pooling-inferentiestrategie die selectief de ruimtelijke resolutie van frame-embeddings aanpast, waardoor het aantal visuele tokens wordt verminderd terwijl belangrijke ruimtelijke informatie behouden blijft. Over meerdere benchmarks voor het begrijpen van lange video's verbetert onze methode consequent de prestaties naarmate het aantal videoframes toeneemt. Op de MLVU-benchmark presteert onze methode beter dan GPT-4o, ook al is onze modelgrootte slechts 7B. Bovendien vermindert onze methode het geheugengebruik met ongeveer 45% in vergelijking met de basisinstelling van 256 frames, zonder enig prestatieverlies te introduceren.
English
Large Multimodal Models (LMMs) have demonstrated impressive performance in
short video understanding tasks but face great challenges when applied to long
video understanding. In contrast, Large Language Models (LLMs) exhibit
outstanding capabilities in modeling long texts. Existing work attempts to
address this issue by introducing long video-text pairs during training.
However, these approaches require substantial computational and data resources.
In this paper, we tackle the challenge of long video understanding from the
perspective of context windows, aiming to apply LMMs to long video tasks
without retraining on long video datasets. We first conduct an in-depth
analysis of why pretrained LMMs struggle to understand lengthy video content,
identifying that discrepancies between visual and language modalities lead to
different context windows for visual and language tokens, making it difficult
to directly extend the visual tokens to match the language context window.
Based on this, we propose to adapt LMMs for long video understanding tasks by
extending the visual context window, eliminating the need for retraining on
large scalelong video datasets. To further mitigate the significant memory
consumption caused by long sequences, we introduce a progressive pooling
inference strategy that selectively adjusts the spatial resolution of frame
embeddings, reducing the number of visual tokens while retaining important
spatial information. Across multiple long video understanding benchmarks, our
method consistently improves the performance as the number of video frames
increases. On the MLVU benchmark, our method outperforms GPT-4o, even though
our model size is only 7B. Additionally, in the 256-frame setting, our method
reduces memory usage by approximately 45% compared to the baseline, without
introducing any performance loss.Summary
AI-Generated Summary