Раскрытие потенциала обучения на часовых видео для понимания длинных видео-текстовых последовательностей
Unleashing Hour-Scale Video Training for Long Video-Language Understanding
June 5, 2025
Авторы: Jingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum
cs.AI
Аннотация
Недавние бенчмарки для понимания длинных видео и текста стимулировали прогресс в области крупных мультимодальных моделей для видео (Video-LMMs). Однако недостаток хорошо аннотированных длинных видео оставил обучение моделей для часовых видео (Video-LLMs) недостаточно изученным. Чтобы устранить этот пробел, мы представляем VideoMarathon — масштабный набор данных для выполнения инструкций на основе часовых видео. Этот набор включает около 9 700 часов длинных видео из различных областей, продолжительностью от 3 до 60 минут на видео. В частности, он содержит 3,3 миллиона высококачественных пар вопросов и ответов, охватывающих шесть основных тем: временные аспекты, пространственные характеристики, объекты, действия, сцены и события. По сравнению с существующими наборами данных для видеоинструкций, VideoMarathon значительно увеличивает продолжительность обучающих видео до 1 часа и поддерживает 22 разнообразных задачи, требующих как краткосрочного, так и долгосрочного понимания видео. На основе VideoMarathon мы предлагаем Hour-LLaVA — мощную и эффективную Video-LMM для моделирования видео и текста на часовом масштабе. Она позволяет обучаться и выполнять вывод на часовых видео с частотой 1 кадр в секунду благодаря модулю расширения памяти, который адаптивно интегрирует семантику, релевантную вопросам пользователя и информативную в пространственно-временном контексте, из кэшированного полного видео. В наших экспериментах Hour-LLaVA демонстрирует наилучшие результаты на нескольких бенчмарках для длинных видео и текста, что подтверждает высокое качество набора данных VideoMarathon и превосходство модели Hour-LLaVA.
English
Recent long-form video-language understanding benchmarks have driven progress
in video large multimodal models (Video-LMMs). However, the scarcity of
well-annotated long videos has left the training of hour-long Video-LLMs
underexplored. To close this gap, we present VideoMarathon, a large-scale
hour-long video instruction-following dataset. This dataset includes around
9,700 hours of long videos sourced from diverse domains, ranging from 3 to 60
minutes per video. Specifically, it contains 3.3M high-quality QA pairs,
spanning six fundamental topics: temporality, spatiality, object, action,
scene, and event. Compared to existing video instruction datasets,
VideoMarathon significantly extends training video durations up to 1 hour, and
supports 22 diverse tasks requiring both short- and long-term video
comprehension. Building on VideoMarathon, we propose Hour-LLaVA, a powerful and
efficient Video-LMM for hour-scale video-language modeling. It enables
hour-long video training and inference at 1-FPS sampling by leveraging a memory
augmentation module, which adaptively integrates user question-relevant and
spatiotemporal-informative semantics from a cached full video context. In our
experiments, Hour-LLaVA achieves the best performance on multiple long
video-language benchmarks, demonstrating the high quality of the VideoMarathon
dataset and the superiority of the Hour-LLaVA model.