ChatPaper.aiChatPaper

VISTA: Улучшение понимания видео длительного действия и высокого разрешения посредством пространственно-временного увеличения видео.

VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation

December 1, 2024
Авторы: Weiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen
cs.AI

Аннотация

В настоящее время перед крупными мультимодальными моделями (LMMs) стоят значительные вызовы в обработке и понимании видеороликов длительного или высокого разрешения, что в основном обусловлено отсутствием качественных наборов данных. Для решения этой проблемы с точки зрения данных мы предлагаем VISTA, простую, но эффективную структуру аугментации видео в пространстве и времени, которая синтезирует пары видеоинструкций и следования из существующих наборов данных видео-описаний. VISTA пространственно и временно объединяет видеоролики для создания новых синтетических видео с увеличенной длительностью и улучшенным разрешением, а затем генерирует пары вопрос-ответ, относящиеся к этим вновь синтезированным видеороликам. Основываясь на этой парадигме, мы разработали семь методов аугментации видео и создали VISTA-400K, набор данных видеоинструкций и следования, направленный на улучшение понимания видеороликов длительного и высокого разрешения. Настройка различных видео LMMs на наших данных привела к среднему улучшению на 3.3% по четырем сложным бенчмаркам для понимания длинных видеороликов. Более того, мы представляем первый всесторонний бенчмарк понимания видео высокого разрешения HRVideoBench, на котором наши настроенные модели достигли улучшения производительности на 6.5%. Эти результаты подчеркивают эффективность нашей структуры.
English
Current large multimodal models (LMMs) face significant challenges in processing and comprehending long-duration or high-resolution videos, which is mainly due to the lack of high-quality datasets. To address this issue from a data-centric perspective, we propose VISTA, a simple yet effective Video Spatiotemporal Augmentation framework that synthesizes long-duration and high-resolution video instruction-following pairs from existing video-caption datasets. VISTA spatially and temporally combines videos to create new synthetic videos with extended durations and enhanced resolutions, and subsequently produces question-answer pairs pertaining to these newly synthesized videos. Based on this paradigm, we develop seven video augmentation methods and curate VISTA-400K, a video instruction-following dataset aimed at enhancing long-duration and high-resolution video understanding. Finetuning various video LMMs on our data resulted in an average improvement of 3.3% across four challenging benchmarks for long-video understanding. Furthermore, we introduce the first comprehensive high-resolution video understanding benchmark HRVideoBench, on which our finetuned models achieve a 6.5% performance gain. These results highlight the effectiveness of our framework.

Summary

AI-Generated Summary

PDF282December 3, 2024