VISTA: Melhorando a Compreensão de Vídeos de Longa Duração e Alta Resolução por Meio de Augmentação Espaço-Temporal de Vídeo.
VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation
December 1, 2024
Autores: Weiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen
cs.AI
Resumo
Os atuais modelos multimodais grandes (LMMs) enfrentam desafios significativos no processamento e compreensão de vídeos de longa duração ou alta resolução, principalmente devido à falta de conjuntos de dados de alta qualidade. Para lidar com esse problema de uma perspectiva centrada em dados, propomos o VISTA, um framework simples, porém eficaz, de Augmentação Espaçotemporal de Vídeo que sintetiza pares de instrução e acompanhamento de vídeo de longa duração e alta resolução a partir de conjuntos de dados de legendas de vídeo existentes. O VISTA combina espacial e temporalmente vídeos para criar novos vídeos sintéticos com durações estendidas e resoluções aprimoradas, e posteriormente produz pares de perguntas e respostas relacionadas a esses vídeos recém-sintetizados. Com base nesse paradigma, desenvolvemos sete métodos de aumento de vídeo e criamos o VISTA-400K, um conjunto de dados de instrução e acompanhamento de vídeo destinado a aprimorar a compreensão de vídeo de longa duração e alta resolução. O ajuste fino de vários LMMs de vídeo em nossos dados resultou em uma melhoria média de 3,3% em quatro benchmarks desafiadores para a compreensão de vídeos longos. Além disso, introduzimos o primeiro benchmark abrangente de compreensão de vídeo de alta resolução, HRVideoBench, no qual nossos modelos ajustados alcançam um ganho de desempenho de 6,5%. Esses resultados destacam a eficácia de nosso framework.
English
Current large multimodal models (LMMs) face significant challenges in
processing and comprehending long-duration or high-resolution videos, which is
mainly due to the lack of high-quality datasets. To address this issue from a
data-centric perspective, we propose VISTA, a simple yet effective Video
Spatiotemporal Augmentation framework that synthesizes long-duration and
high-resolution video instruction-following pairs from existing video-caption
datasets. VISTA spatially and temporally combines videos to create new
synthetic videos with extended durations and enhanced resolutions, and
subsequently produces question-answer pairs pertaining to these newly
synthesized videos. Based on this paradigm, we develop seven video augmentation
methods and curate VISTA-400K, a video instruction-following dataset aimed at
enhancing long-duration and high-resolution video understanding. Finetuning
various video LMMs on our data resulted in an average improvement of 3.3%
across four challenging benchmarks for long-video understanding. Furthermore,
we introduce the first comprehensive high-resolution video understanding
benchmark HRVideoBench, on which our finetuned models achieve a 6.5%
performance gain. These results highlight the effectiveness of our framework.Summary
AI-Generated Summary