ChatPaper.aiChatPaper

Sbloccare l'Addestramento su Video su Scala Oraria per la Comprensione di Video-Linguaggio Lunghi

Unleashing Hour-Scale Video Training for Long Video-Language Understanding

June 5, 2025
Autori: Jingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum
cs.AI

Abstract

I recenti benchmark per la comprensione di video di lunga durata hanno favorito il progresso nei modelli multimodali di grandi dimensioni per i video (Video-LMMs). Tuttavia, la scarsità di video lunghi ben annotati ha lasciato poco esplorato l'addestramento di Video-LLMs per video della durata di un'ora. Per colmare questa lacuna, presentiamo VideoMarathon, un dataset su larga scala per il seguimento di istruzioni su video della durata di un'ora. Questo dataset include circa 9.700 ore di video lunghi provenienti da diversi domini, con una durata che varia da 3 a 60 minuti per video. Nello specifico, contiene 3,3 milioni di coppie domanda-risposta di alta qualità, che coprono sei argomenti fondamentali: temporalità, spazialità, oggetto, azione, scena ed evento. Rispetto ai dataset esistenti per istruzioni video, VideoMarathon estende significativamente la durata dei video di addestramento fino a un'ora e supporta 22 diverse attività che richiedono la comprensione sia a breve che a lungo termine dei video. Basandoci su VideoMarathon, proponiamo Hour-LLaVA, un Video-LMM potente ed efficiente per la modellazione video-linguistica su scala oraria. Consente l'addestramento e l'inferenza su video della durata di un'ora con un campionamento a 1-FPS sfruttando un modulo di aumento della memoria, che integra in modo adattivo la semantica rilevante per la domanda dell'utente e informativa spaziotemporale da un contesto video completo memorizzato. Nei nostri esperimenti, Hour-LLaVA raggiunge le migliori prestazioni su più benchmark video-linguistici di lunga durata, dimostrando l'alta qualità del dataset VideoMarathon e la superiorità del modello Hour-LLaVA.
English
Recent long-form video-language understanding benchmarks have driven progress in video large multimodal models (Video-LMMs). However, the scarcity of well-annotated long videos has left the training of hour-long Video-LLMs underexplored. To close this gap, we present VideoMarathon, a large-scale hour-long video instruction-following dataset. This dataset includes around 9,700 hours of long videos sourced from diverse domains, ranging from 3 to 60 minutes per video. Specifically, it contains 3.3M high-quality QA pairs, spanning six fundamental topics: temporality, spatiality, object, action, scene, and event. Compared to existing video instruction datasets, VideoMarathon significantly extends training video durations up to 1 hour, and supports 22 diverse tasks requiring both short- and long-term video comprehension. Building on VideoMarathon, we propose Hour-LLaVA, a powerful and efficient Video-LMM for hour-scale video-language modeling. It enables hour-long video training and inference at 1-FPS sampling by leveraging a memory augmentation module, which adaptively integrates user question-relevant and spatiotemporal-informative semantics from a cached full video context. In our experiments, Hour-LLaVA achieves the best performance on multiple long video-language benchmarks, demonstrating the high quality of the VideoMarathon dataset and the superiority of the Hour-LLaVA model.
PDF31June 6, 2025