VISTA: Verbesserung des Verständnisses von Langzeit- und hochauflösenden Videos durch die räumlich-zeitliche Erweiterung von Videos.
VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation
December 1, 2024
Autoren: Weiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen
cs.AI
Zusammenfassung
Aktuelle große multimodale Modelle (LMMs) stehen vor erheblichen Herausforderungen bei der Verarbeitung und dem Verständnis von langen oder hochauflösenden Videos, was hauptsächlich auf den Mangel an qualitativ hochwertigen Datensätzen zurückzuführen ist. Um dieses Problem aus einer datenzentrierten Perspektive anzugehen, schlagen wir VISTA vor, ein einfaches, aber effektives Video-Spatiotemporales Augmentierungs-Framework, das langanhaltende und hochauflösende Video-Anweisungs-Paare aus vorhandenen Video-Untertitel-Datensätzen synthetisiert. VISTA kombiniert räumlich und zeitlich Videos, um neue synthetische Videos mit erweiterten Dauern und verbesserten Auflösungen zu erstellen, und erzeugt anschließend Frage-Antwort-Paare zu diesen neu synthetisierten Videos. Basierend auf diesem Paradigma entwickeln wir sieben Video-Augmentierungsmethoden und kuratieren VISTA-400K, einen Video-Anweisungs-Datensatz, der darauf abzielt, das Verständnis von langanhaltenden und hochauflösenden Videos zu verbessern. Das Feintuning verschiedener Video-LMMs auf unseren Daten führte zu einer durchschnittlichen Verbesserung von 3,3% über vier anspruchsvolle Benchmarks für das Verständnis von langen Videos. Darüber hinaus führen wir den ersten umfassenden Benchmark für das Verständnis von hochauflösenden Videos, HRVideoBench, ein, auf dem unsere feingetunten Modelle eine Leistungssteigerung von 6,5% erzielen. Diese Ergebnisse unterstreichen die Wirksamkeit unseres Frameworks.
English
Current large multimodal models (LMMs) face significant challenges in
processing and comprehending long-duration or high-resolution videos, which is
mainly due to the lack of high-quality datasets. To address this issue from a
data-centric perspective, we propose VISTA, a simple yet effective Video
Spatiotemporal Augmentation framework that synthesizes long-duration and
high-resolution video instruction-following pairs from existing video-caption
datasets. VISTA spatially and temporally combines videos to create new
synthetic videos with extended durations and enhanced resolutions, and
subsequently produces question-answer pairs pertaining to these newly
synthesized videos. Based on this paradigm, we develop seven video augmentation
methods and curate VISTA-400K, a video instruction-following dataset aimed at
enhancing long-duration and high-resolution video understanding. Finetuning
various video LMMs on our data resulted in an average improvement of 3.3%
across four challenging benchmarks for long-video understanding. Furthermore,
we introduce the first comprehensive high-resolution video understanding
benchmark HRVideoBench, on which our finetuned models achieve a 6.5%
performance gain. These results highlight the effectiveness of our framework.Summary
AI-Generated Summary