Sbloccare l'Addestramento su Video su Scala Oraria per la Comprensione di Video-Linguaggio Lunghi
Unleashing Hour-Scale Video Training for Long Video-Language Understanding
June 5, 2025
Autori: Jingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum
cs.AI
Abstract
I recenti benchmark per la comprensione di video di lunga durata hanno favorito il progresso nei modelli multimodali di grandi dimensioni per i video (Video-LMMs). Tuttavia, la scarsità di video lunghi ben annotati ha lasciato poco esplorato l'addestramento di Video-LLMs per video della durata di un'ora. Per colmare questa lacuna, presentiamo VideoMarathon, un dataset su larga scala per il seguimento di istruzioni su video della durata di un'ora. Questo dataset include circa 9.700 ore di video lunghi provenienti da diversi domini, con una durata che varia da 3 a 60 minuti per video. Nello specifico, contiene 3,3 milioni di coppie domanda-risposta di alta qualità, che coprono sei argomenti fondamentali: temporalità, spazialità, oggetto, azione, scena ed evento. Rispetto ai dataset esistenti per istruzioni video, VideoMarathon estende significativamente la durata dei video di addestramento fino a un'ora e supporta 22 diverse attività che richiedono la comprensione sia a breve che a lungo termine dei video. Basandoci su VideoMarathon, proponiamo Hour-LLaVA, un Video-LMM potente ed efficiente per la modellazione video-linguistica su scala oraria. Consente l'addestramento e l'inferenza su video della durata di un'ora con un campionamento a 1-FPS sfruttando un modulo di aumento della memoria, che integra in modo adattivo la semantica rilevante per la domanda dell'utente e informativa spaziotemporale da un contesto video completo memorizzato. Nei nostri esperimenti, Hour-LLaVA raggiunge le migliori prestazioni su più benchmark video-linguistici di lunga durata, dimostrando l'alta qualità del dataset VideoMarathon e la superiorità del modello Hour-LLaVA.
English
Recent long-form video-language understanding benchmarks have driven progress
in video large multimodal models (Video-LMMs). However, the scarcity of
well-annotated long videos has left the training of hour-long Video-LLMs
underexplored. To close this gap, we present VideoMarathon, a large-scale
hour-long video instruction-following dataset. This dataset includes around
9,700 hours of long videos sourced from diverse domains, ranging from 3 to 60
minutes per video. Specifically, it contains 3.3M high-quality QA pairs,
spanning six fundamental topics: temporality, spatiality, object, action,
scene, and event. Compared to existing video instruction datasets,
VideoMarathon significantly extends training video durations up to 1 hour, and
supports 22 diverse tasks requiring both short- and long-term video
comprehension. Building on VideoMarathon, we propose Hour-LLaVA, a powerful and
efficient Video-LMM for hour-scale video-language modeling. It enables
hour-long video training and inference at 1-FPS sampling by leveraging a memory
augmentation module, which adaptively integrates user question-relevant and
spatiotemporal-informative semantics from a cached full video context. In our
experiments, Hour-LLaVA achieves the best performance on multiple long
video-language benchmarks, demonstrating the high quality of the VideoMarathon
dataset and the superiority of the Hour-LLaVA model.