ChatPaper.aiChatPaper

Het vrijgeven van uur-schaal videotraining voor langdurig video-taalbegrip

Unleashing Hour-Scale Video Training for Long Video-Language Understanding

June 5, 2025
Auteurs: Jingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum
cs.AI

Samenvatting

Recente benchmarks voor het begrijpen van lange video's en taal hebben vooruitgang gestimuleerd in grote multimodale videomodelen (Video-LMMs). De schaarste aan goed geannoteerde lange video's heeft echter het trainen van uur-lange Video-LLMs onderbelicht gelaten. Om deze kloof te dichten, presenteren we VideoMarathon, een grootschalige dataset voor het volgen van instructies in uur-lange video's. Deze dataset bevat ongeveer 9.700 uur aan lange video's uit diverse domeinen, variërend van 3 tot 60 minuten per video. Specifiek bevat het 3,3 miljoen hoogwaardige vraag-antwoordparen, die zes fundamentele onderwerpen beslaan: temporaliteit, spatialiteit, object, actie, scène en gebeurtenis. In vergelijking met bestaande video-instructiedatasets, breidt VideoMarathon de trainingsvideoduur aanzienlijk uit tot 1 uur en ondersteunt het 22 diverse taken die zowel kortetermijn- als langetermijnvideobegrip vereisen. Op basis van VideoMarathon stellen we Hour-LLaVA voor, een krachtig en efficiënt Video-LMM voor uur-schaal video-taalmodellering. Het maakt training en inferentie van uur-lange video's mogelijk bij 1-FPS bemonstering door gebruik te maken van een geheugenuitbreidingsmodule, die adaptief gebruikersvraag-relevante en ruimtelijk-temporeel informatieve semantiek integreert uit een gecachete volledige videocontext. In onze experimenten behaalt Hour-LLaVA de beste prestaties op meerdere lange video-taalbenchmarks, wat de hoge kwaliteit van de VideoMarathon-dataset en de superioriteit van het Hour-LLaVA-model aantoont.
English
Recent long-form video-language understanding benchmarks have driven progress in video large multimodal models (Video-LMMs). However, the scarcity of well-annotated long videos has left the training of hour-long Video-LLMs underexplored. To close this gap, we present VideoMarathon, a large-scale hour-long video instruction-following dataset. This dataset includes around 9,700 hours of long videos sourced from diverse domains, ranging from 3 to 60 minutes per video. Specifically, it contains 3.3M high-quality QA pairs, spanning six fundamental topics: temporality, spatiality, object, action, scene, and event. Compared to existing video instruction datasets, VideoMarathon significantly extends training video durations up to 1 hour, and supports 22 diverse tasks requiring both short- and long-term video comprehension. Building on VideoMarathon, we propose Hour-LLaVA, a powerful and efficient Video-LMM for hour-scale video-language modeling. It enables hour-long video training and inference at 1-FPS sampling by leveraging a memory augmentation module, which adaptively integrates user question-relevant and spatiotemporal-informative semantics from a cached full video context. In our experiments, Hour-LLaVA achieves the best performance on multiple long video-language benchmarks, demonstrating the high quality of the VideoMarathon dataset and the superiority of the Hour-LLaVA model.
PDF31June 6, 2025