VISTA : Amélioration de la compréhension des vidéos de longue durée et haute résolution par augmentation spatiotemporelle de la vidéo
VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation
December 1, 2024
Auteurs: Weiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen
cs.AI
Résumé
Les modèles multimodaux larges actuels (LMM) rencontrent d'importants défis dans le traitement et la compréhension de vidéos de longue durée ou haute résolution, principalement en raison du manque de jeux de données de haute qualité. Pour résoudre ce problème d'un point de vue centré sur les données, nous proposons VISTA, un cadre d'augmentation vidéo spatiotemporelle simple mais efficace qui synthétise des paires d'instructions vidéo de longue durée et haute résolution à partir de jeux de données existants de légendes vidéo. VISTA combine spatialement et temporellement des vidéos pour créer de nouvelles vidéos synthétiques avec des durées étendues et des résolutions améliorées, puis génère des paires question-réponse concernant ces nouvelles vidéos synthétisées. Sur la base de ce paradigme, nous développons sept méthodes d'augmentation vidéo et constituons VISTA-400K, un jeu de données d'instructions vidéo visant à améliorer la compréhension des vidéos de longue durée et haute résolution. Le réglage fin de divers LMM vidéo sur nos données a entraîné une amélioration moyenne de 3,3 % sur quatre benchmarks difficiles pour la compréhension des longues vidéos. De plus, nous introduisons le premier benchmark complet de compréhension de vidéos haute résolution, HRVideoBench, sur lequel nos modèles affinés obtiennent un gain de performance de 6,5 %. Ces résultats mettent en évidence l'efficacité de notre cadre.
English
Current large multimodal models (LMMs) face significant challenges in
processing and comprehending long-duration or high-resolution videos, which is
mainly due to the lack of high-quality datasets. To address this issue from a
data-centric perspective, we propose VISTA, a simple yet effective Video
Spatiotemporal Augmentation framework that synthesizes long-duration and
high-resolution video instruction-following pairs from existing video-caption
datasets. VISTA spatially and temporally combines videos to create new
synthetic videos with extended durations and enhanced resolutions, and
subsequently produces question-answer pairs pertaining to these newly
synthesized videos. Based on this paradigm, we develop seven video augmentation
methods and curate VISTA-400K, a video instruction-following dataset aimed at
enhancing long-duration and high-resolution video understanding. Finetuning
various video LMMs on our data resulted in an average improvement of 3.3%
across four challenging benchmarks for long-video understanding. Furthermore,
we introduce the first comprehensive high-resolution video understanding
benchmark HRVideoBench, on which our finetuned models achieve a 6.5%
performance gain. These results highlight the effectiveness of our framework.