ChatPaper.aiChatPaper

VISTA: Mejorando la comprensión de videos de larga duración y alta resolución mediante la ampliación espaciotemporal de video.

VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation

December 1, 2024
Autores: Weiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen
cs.AI

Resumen

Los actuales modelos multimodales grandes (LMMs) enfrentan desafíos significativos en el procesamiento y comprensión de videos de larga duración o alta resolución, principalmente debido a la falta de conjuntos de datos de alta calidad. Para abordar este problema desde una perspectiva centrada en los datos, proponemos VISTA, un marco simple pero efectivo de Aumentación Espaciotemporal de Video que sintetiza pares de instrucciones y seguimiento de video de larga duración y alta resolución a partir de conjuntos de datos existentes de subtítulos de video. VISTA combina espacial y temporalmente videos para crear nuevos videos sintéticos con duraciones extendidas y resoluciones mejoradas, y posteriormente genera pares de preguntas y respuestas relacionadas con estos videos recién sintetizados. Basándonos en este paradigma, desarrollamos siete métodos de aumento de video y creamos VISTA-400K, un conjunto de datos de seguimiento de instrucciones en video destinado a mejorar la comprensión de videos de larga duración y alta resolución. El ajuste fino de varios LMMs de video en nuestros datos resultó en una mejora promedio del 3.3% en cuatro desafiantes referencias para la comprensión de videos largos. Además, presentamos el primer referente completo de comprensión de video de alta resolución, HRVideoBench, en el cual nuestros modelos ajustados logran un aumento del rendimiento del 6.5%. Estos resultados resaltan la efectividad de nuestro marco.
English
Current large multimodal models (LMMs) face significant challenges in processing and comprehending long-duration or high-resolution videos, which is mainly due to the lack of high-quality datasets. To address this issue from a data-centric perspective, we propose VISTA, a simple yet effective Video Spatiotemporal Augmentation framework that synthesizes long-duration and high-resolution video instruction-following pairs from existing video-caption datasets. VISTA spatially and temporally combines videos to create new synthetic videos with extended durations and enhanced resolutions, and subsequently produces question-answer pairs pertaining to these newly synthesized videos. Based on this paradigm, we develop seven video augmentation methods and curate VISTA-400K, a video instruction-following dataset aimed at enhancing long-duration and high-resolution video understanding. Finetuning various video LMMs on our data resulted in an average improvement of 3.3% across four challenging benchmarks for long-video understanding. Furthermore, we introduce the first comprehensive high-resolution video understanding benchmark HRVideoBench, on which our finetuned models achieve a 6.5% performance gain. These results highlight the effectiveness of our framework.

Summary

AI-Generated Summary

PDF282December 3, 2024