ChatPaper.aiChatPaper

Libérer l'entraînement vidéo à l'échelle horaire pour la compréhension de vidéos longues en langage visuel

Unleashing Hour-Scale Video Training for Long Video-Language Understanding

June 5, 2025
Auteurs: Jingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum
cs.AI

Résumé

Les récents benchmarks de compréhension vidéo-langage de longue durée ont stimulé les progrès dans les modèles multimodaux de grande taille pour la vidéo (Video-LMMs). Cependant, la rareté de vidéos longues bien annotées a laissé l'entraînement des Video-LLMs pour des vidéos d'une heure sous-exploré. Pour combler cette lacune, nous présentons VideoMarathon, un ensemble de données à grande échelle pour le suivi d'instructions sur des vidéos d'une heure. Ce jeu de données comprend environ 9 700 heures de vidéos longues provenant de domaines variés, allant de 3 à 60 minutes par vidéo. Plus précisément, il contient 3,3 millions de paires questions-réponses de haute qualité, couvrant six thèmes fondamentaux : temporalité, spatialité, objet, action, scène et événement. Par rapport aux ensembles de données d'instructions vidéo existants, VideoMarathon étend considérablement la durée des vidéos d'entraînement jusqu'à 1 heure et prend en charge 22 tâches variées nécessitant une compréhension vidéo à court et à long terme. Sur la base de VideoMarathon, nous proposons Hour-LLaVA, un Video-LMM puissant et efficace pour la modélisation vidéo-langage à l'échelle horaire. Il permet l'entraînement et l'inférence sur des vidéos d'une heure avec un échantillonnage à 1 image par seconde en exploitant un module d'augmentation de mémoire, qui intègre de manière adaptative les sémantiques pertinentes pour la question de l'utilisateur et informatives sur le plan spatio-temporel à partir d'un contexte vidéo complet mis en cache. Dans nos expériences, Hour-LLaVA obtient les meilleures performances sur plusieurs benchmarks vidéo-langage de longue durée, démontrant la haute qualité du jeu de données VideoMarathon et la supériorité du modèle Hour-LLaVA.
English
Recent long-form video-language understanding benchmarks have driven progress in video large multimodal models (Video-LMMs). However, the scarcity of well-annotated long videos has left the training of hour-long Video-LLMs underexplored. To close this gap, we present VideoMarathon, a large-scale hour-long video instruction-following dataset. This dataset includes around 9,700 hours of long videos sourced from diverse domains, ranging from 3 to 60 minutes per video. Specifically, it contains 3.3M high-quality QA pairs, spanning six fundamental topics: temporality, spatiality, object, action, scene, and event. Compared to existing video instruction datasets, VideoMarathon significantly extends training video durations up to 1 hour, and supports 22 diverse tasks requiring both short- and long-term video comprehension. Building on VideoMarathon, we propose Hour-LLaVA, a powerful and efficient Video-LMM for hour-scale video-language modeling. It enables hour-long video training and inference at 1-FPS sampling by leveraging a memory augmentation module, which adaptively integrates user question-relevant and spatiotemporal-informative semantics from a cached full video context. In our experiments, Hour-LLaVA achieves the best performance on multiple long video-language benchmarks, demonstrating the high quality of the VideoMarathon dataset and the superiority of the Hour-LLaVA model.
PDF31June 6, 2025