Visueller Kontextfenster-Erweiterung: Eine neue Perspektive für das Verständnis langer Videos
Visual Context Window Extension: A New Perspective for Long Video Understanding
September 30, 2024
Autoren: Hongchen Wei, Zhenzhong Chen
cs.AI
Zusammenfassung
Große multimodale Modelle (LMMs) haben beeindruckende Leistungen bei der Verarbeitung kurzer Videos gezeigt, stehen jedoch vor großen Herausforderungen, wenn sie auf das Verstehen langer Videos angewendet werden. Im Gegensatz dazu zeigen große Sprachmodelle (LLMs) herausragende Fähigkeiten bei der Modellierung langer Texte. Bestehende Arbeiten versuchen, dieses Problem zu lösen, indem sie lange Video-Text-Paare während des Trainings einführen. Diese Ansätze erfordern jedoch erhebliche Rechen- und Datenressourcen. In diesem Paper nehmen wir die Herausforderung des Verstehens langer Videos aus der Perspektive von Kontextfenstern in Angriff, mit dem Ziel, LMMs auf lange Videoaufgaben anzuwenden, ohne eine Neuschulung auf umfangreichen Videodatensätzen durchzuführen. Wir führen zunächst eine eingehende Analyse durch, warum vorab trainierte LMMs Schwierigkeiten haben, umfangreiche Videoinhalte zu verstehen, und identifizieren, dass Diskrepanzen zwischen visuellen und sprachlichen Modalitäten zu unterschiedlichen Kontextfenstern für visuelle und sprachliche Tokens führen, was es schwierig macht, die visuellen Tokens direkt an den sprachlichen Kontext anzupassen. Basierend darauf schlagen wir vor, LMMs für lange Videoverständnisaufgaben anzupassen, indem wir den visuellen Kontext erweitern und so auf eine Neuschulung auf umfangreichen Videodatensätzen verzichten können. Um den signifikanten Speicherverbrauch durch lange Sequenzen weiter zu reduzieren, führen wir eine progressive Pooling-Inferenzstrategie ein, die die räumliche Auflösung der Frame-Embeddings selektiv anpasst, um die Anzahl der visuellen Tokens zu reduzieren, während wichtige räumliche Informationen beibehalten werden. Über mehrere Benchmarks zum Verständnis langer Videos hinweg verbessert unsere Methode konsistent die Leistung mit zunehmender Anzahl von Videoframes. Auf dem MLVU-Benchmark übertrifft unsere Methode sogar GPT-4o, obwohl die Größe unseres Modells nur 7B beträgt. Darüber hinaus reduziert unsere Methode bei der Einstellung mit 256 Frames den Speicherverbrauch im Vergleich zum Baseline-Modell um etwa 45%, ohne dabei Leistungseinbußen zu verursachen.
English
Large Multimodal Models (LMMs) have demonstrated impressive performance in
short video understanding tasks but face great challenges when applied to long
video understanding. In contrast, Large Language Models (LLMs) exhibit
outstanding capabilities in modeling long texts. Existing work attempts to
address this issue by introducing long video-text pairs during training.
However, these approaches require substantial computational and data resources.
In this paper, we tackle the challenge of long video understanding from the
perspective of context windows, aiming to apply LMMs to long video tasks
without retraining on long video datasets. We first conduct an in-depth
analysis of why pretrained LMMs struggle to understand lengthy video content,
identifying that discrepancies between visual and language modalities lead to
different context windows for visual and language tokens, making it difficult
to directly extend the visual tokens to match the language context window.
Based on this, we propose to adapt LMMs for long video understanding tasks by
extending the visual context window, eliminating the need for retraining on
large scalelong video datasets. To further mitigate the significant memory
consumption caused by long sequences, we introduce a progressive pooling
inference strategy that selectively adjusts the spatial resolution of frame
embeddings, reducing the number of visual tokens while retaining important
spatial information. Across multiple long video understanding benchmarks, our
method consistently improves the performance as the number of video frames
increases. On the MLVU benchmark, our method outperforms GPT-4o, even though
our model size is only 7B. Additionally, in the 256-frame setting, our method
reduces memory usage by approximately 45% compared to the baseline, without
introducing any performance loss.Summary
AI-Generated Summary