ChatPaper.aiChatPaper

Раскрытие потенциала обучения на часовых видео для понимания длинных видео-текстовых последовательностей

Unleashing Hour-Scale Video Training for Long Video-Language Understanding

June 5, 2025
Авторы: Jingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum
cs.AI

Аннотация

Недавние бенчмарки для понимания длинных видео и текста стимулировали прогресс в области крупных мультимодальных моделей для видео (Video-LMMs). Однако недостаток хорошо аннотированных длинных видео оставил обучение моделей для часовых видео (Video-LLMs) недостаточно изученным. Чтобы устранить этот пробел, мы представляем VideoMarathon — масштабный набор данных для выполнения инструкций на основе часовых видео. Этот набор включает около 9 700 часов длинных видео из различных областей, продолжительностью от 3 до 60 минут на видео. В частности, он содержит 3,3 миллиона высококачественных пар вопросов и ответов, охватывающих шесть основных тем: временные аспекты, пространственные характеристики, объекты, действия, сцены и события. По сравнению с существующими наборами данных для видеоинструкций, VideoMarathon значительно увеличивает продолжительность обучающих видео до 1 часа и поддерживает 22 разнообразных задачи, требующих как краткосрочного, так и долгосрочного понимания видео. На основе VideoMarathon мы предлагаем Hour-LLaVA — мощную и эффективную Video-LMM для моделирования видео и текста на часовом масштабе. Она позволяет обучаться и выполнять вывод на часовых видео с частотой 1 кадр в секунду благодаря модулю расширения памяти, который адаптивно интегрирует семантику, релевантную вопросам пользователя и информативную в пространственно-временном контексте, из кэшированного полного видео. В наших экспериментах Hour-LLaVA демонстрирует наилучшие результаты на нескольких бенчмарках для длинных видео и текста, что подтверждает высокое качество набора данных VideoMarathon и превосходство модели Hour-LLaVA.
English
Recent long-form video-language understanding benchmarks have driven progress in video large multimodal models (Video-LMMs). However, the scarcity of well-annotated long videos has left the training of hour-long Video-LLMs underexplored. To close this gap, we present VideoMarathon, a large-scale hour-long video instruction-following dataset. This dataset includes around 9,700 hours of long videos sourced from diverse domains, ranging from 3 to 60 minutes per video. Specifically, it contains 3.3M high-quality QA pairs, spanning six fundamental topics: temporality, spatiality, object, action, scene, and event. Compared to existing video instruction datasets, VideoMarathon significantly extends training video durations up to 1 hour, and supports 22 diverse tasks requiring both short- and long-term video comprehension. Building on VideoMarathon, we propose Hour-LLaVA, a powerful and efficient Video-LMM for hour-scale video-language modeling. It enables hour-long video training and inference at 1-FPS sampling by leveraging a memory augmentation module, which adaptively integrates user question-relevant and spatiotemporal-informative semantics from a cached full video context. In our experiments, Hour-LLaVA achieves the best performance on multiple long video-language benchmarks, demonstrating the high quality of the VideoMarathon dataset and the superiority of the Hour-LLaVA model.
PDF31June 6, 2025