ChatPaper.aiChatPaper

Freisetzung von Stundenlangem Videotraining für das Verständnis langer Video-Sprache-Zusammenhänge

Unleashing Hour-Scale Video Training for Long Video-Language Understanding

June 5, 2025
Autoren: Jingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum
cs.AI

Zusammenfassung

Aktuelle Benchmarks für das Verständnis von langen Videos und Sprache haben Fortschritte bei großen multimodalen Video-Modellen (Video-LMMs) vorangetrieben. Die Knappheit von gut annotierten langen Videos hat jedoch das Training von Video-LLMs für stundenlange Inhalte bisher wenig erforscht gelassen. Um diese Lücke zu schließen, präsentieren wir VideoMarathon, einen groß angelegten Datensatz für stundenlange Video-Instruktionsfolgen. Dieser Datensatz umfasst rund 9.700 Stunden lange Videos aus verschiedenen Domänen, mit einer Dauer von 3 bis 60 Minuten pro Video. Insbesondere enthält er 3,3 Millionen hochwertige Frage-Antwort-Paare, die sechs grundlegende Themen abdecken: Temporalität, Räumlichkeit, Objekte, Aktionen, Szenen und Ereignisse. Im Vergleich zu bestehenden Video-Instruktionsdatensätzen erweitert VideoMarathon die Trainingsvideodauer signifikant auf bis zu 1 Stunde und unterstützt 22 verschiedene Aufgaben, die sowohl kurzfristiges als auch langfristiges Videoverständnis erfordern. Basierend auf VideoMarathon schlagen wir Hour-LLaVA vor, ein leistungsstarkes und effizientes Video-LMM für die Modellierung von stundenlanger Video-Sprache. Es ermöglicht das Training und die Inferenz von stundenlangen Videos mit einer Abtastrate von 1 FPS durch die Nutzung eines Speichererweiterungsmoduls, das relevante Benutzerfragen und raumzeitlich informative Semantik aus einem zwischengespeicherten vollständigen Videokontext adaptiv integriert. In unseren Experimenten erzielt Hour-LLaVA die beste Leistung auf mehreren Benchmarks für lange Video-Sprache, was die hohe Qualität des VideoMarathon-Datensatzes und die Überlegenheit des Hour-LLaVA-Modells unterstreicht.
English
Recent long-form video-language understanding benchmarks have driven progress in video large multimodal models (Video-LMMs). However, the scarcity of well-annotated long videos has left the training of hour-long Video-LLMs underexplored. To close this gap, we present VideoMarathon, a large-scale hour-long video instruction-following dataset. This dataset includes around 9,700 hours of long videos sourced from diverse domains, ranging from 3 to 60 minutes per video. Specifically, it contains 3.3M high-quality QA pairs, spanning six fundamental topics: temporality, spatiality, object, action, scene, and event. Compared to existing video instruction datasets, VideoMarathon significantly extends training video durations up to 1 hour, and supports 22 diverse tasks requiring both short- and long-term video comprehension. Building on VideoMarathon, we propose Hour-LLaVA, a powerful and efficient Video-LMM for hour-scale video-language modeling. It enables hour-long video training and inference at 1-FPS sampling by leveraging a memory augmentation module, which adaptively integrates user question-relevant and spatiotemporal-informative semantics from a cached full video context. In our experiments, Hour-LLaVA achieves the best performance on multiple long video-language benchmarks, demonstrating the high quality of the VideoMarathon dataset and the superiority of the Hour-LLaVA model.
PDF31June 6, 2025