VISTA: Miglioramento della comprensione dei video a lunga durata e ad alta risoluzione attraverso l'aumento spazio-temporale dei video.
VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation
December 1, 2024
Autori: Weiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen
cs.AI
Abstract
Attuali grandi modelli multimodali (LMM) si trovano ad affrontare significativi ostacoli nel processare e comprendere video di lunga durata o ad alta risoluzione, principalmente a causa della mancanza di dataset di alta qualità. Per affrontare questo problema da una prospettiva centrata sui dati, proponiamo VISTA, un framework di Augmentazione Spaziotemporale Video semplice ma efficace che sintetizza coppie di istruzioni video di lunga durata e ad alta risoluzione da dataset esistenti di video e didascalie. VISTA combina spazialmente e temporalmente video per creare nuovi video sintetici con durate estese e risoluzioni migliorate, e successivamente genera coppie domanda-risposta relative a questi nuovi video sintetizzati. Basandoci su questo paradigma, sviluppiamo sette metodi di augmentazione video e curiamo VISTA-400K, un dataset di istruzioni video che mira a migliorare la comprensione dei video di lunga durata e ad alta risoluzione. Il raffinamento di vari LMM video sui nostri dati ha portato a un miglioramento medio del 3,3% su quattro sfide di riferimento per la comprensione dei video lunghi. Inoltre, introduciamo il primo completo benchmark di comprensione video ad alta risoluzione HRVideoBench, su cui i nostri modelli raffinati ottengono un aumento delle prestazioni del 6,5%. Questi risultati evidenziano l'efficacia del nostro framework.
English
Current large multimodal models (LMMs) face significant challenges in
processing and comprehending long-duration or high-resolution videos, which is
mainly due to the lack of high-quality datasets. To address this issue from a
data-centric perspective, we propose VISTA, a simple yet effective Video
Spatiotemporal Augmentation framework that synthesizes long-duration and
high-resolution video instruction-following pairs from existing video-caption
datasets. VISTA spatially and temporally combines videos to create new
synthetic videos with extended durations and enhanced resolutions, and
subsequently produces question-answer pairs pertaining to these newly
synthesized videos. Based on this paradigm, we develop seven video augmentation
methods and curate VISTA-400K, a video instruction-following dataset aimed at
enhancing long-duration and high-resolution video understanding. Finetuning
various video LMMs on our data resulted in an average improvement of 3.3%
across four challenging benchmarks for long-video understanding. Furthermore,
we introduce the first comprehensive high-resolution video understanding
benchmark HRVideoBench, on which our finetuned models achieve a 6.5%
performance gain. These results highlight the effectiveness of our framework.Summary
AI-Generated Summary