VISTA: Verbetering van langetermijn- en hoge-resolutie videobegrip door video-spatiotemporale augmentatie.
VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation
December 1, 2024
Auteurs: Weiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen
cs.AI
Samenvatting
Huidige grote multimodale modellen (LMM's) staan voor aanzienlijke uitdagingen bij het verwerken en begrijpen van langdurige of hoge-resolutie video's, wat voornamelijk te wijten is aan het gebrek aan hoogwaardige datasets. Om dit probleem vanuit een datacentrisch perspectief aan te pakken, stellen we VISTA voor, een eenvoudig maar effectief Video Spatiotemporal Augmentation framework dat langdurige en hoge-resolutie video-instructievolgparen synthetiseert uit bestaande video-ondertitelingsdatasets. VISTA combineert video's ruimtelijk en temporeel om nieuwe synthetische video's te creëren met verlengde duur en verbeterde resoluties, en produceert vervolgens vraag-antwoordparen met betrekking tot deze nieuw gesynthetiseerde video's. Op basis van dit paradigma ontwikkelen we zeven video-augmentatiemethoden en stellen VISTA-400K samen, een video-instructievolgdataset gericht op het verbeteren van het begrip van langdurige en hoge-resolutie video's. Het finetunen van verschillende video LMM's op onze gegevens resulteerde in een gemiddelde verbetering van 3,3% over vier uitdagende benchmarks voor het begrip van lange video's. Bovendien introduceren we de eerste uitgebreide benchmark voor het begrip van hoge-resolutie video's, HRVideoBench, waarop onze gefinetunede modellen een prestatiewinst van 6,5% behalen. Deze resultaten benadrukken de effectiviteit van ons framework.
English
Current large multimodal models (LMMs) face significant challenges in
processing and comprehending long-duration or high-resolution videos, which is
mainly due to the lack of high-quality datasets. To address this issue from a
data-centric perspective, we propose VISTA, a simple yet effective Video
Spatiotemporal Augmentation framework that synthesizes long-duration and
high-resolution video instruction-following pairs from existing video-caption
datasets. VISTA spatially and temporally combines videos to create new
synthetic videos with extended durations and enhanced resolutions, and
subsequently produces question-answer pairs pertaining to these newly
synthesized videos. Based on this paradigm, we develop seven video augmentation
methods and curate VISTA-400K, a video instruction-following dataset aimed at
enhancing long-duration and high-resolution video understanding. Finetuning
various video LMMs on our data resulted in an average improvement of 3.3%
across four challenging benchmarks for long-video understanding. Furthermore,
we introduce the first comprehensive high-resolution video understanding
benchmark HRVideoBench, on which our finetuned models achieve a 6.5%
performance gain. These results highlight the effectiveness of our framework.