ChatPaper.aiChatPaper

장기 비디오-언어 이해를 위한 시간 단위 비디오 훈련의 활용

Unleashing Hour-Scale Video Training for Long Video-Language Understanding

June 5, 2025
저자: Jingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum
cs.AI

초록

최근 장편 비디오-언어 이해 벤치마크는 비디오 대형 멀티모달 모델(Video-LMMs)의 발전을 이끌어 왔습니다. 그러나 잘 주석 처리된 장편 비디오의 부족으로 인해 시간 단위의 Video-LLMs 훈련은 충분히 탐구되지 못했습니다. 이러한 격차를 해소하기 위해, 우리는 대규모 시간 단위 비디오 명령 수행 데이터셋인 VideoMarathon을 제안합니다. 이 데이터셋은 다양한 도메인에서 수집된 약 9,700시간 분량의 장편 비디오를 포함하며, 비디오당 3분에서 60분까지의 길이를 가집니다. 특히, 이 데이터셋은 시간성, 공간성, 객체, 행동, 장면, 이벤트 등 여섯 가지 기본 주제를 아우르는 330만 개의 고품질 질문-답변 쌍을 포함합니다. 기존의 비디오 명령 데이터셋과 비교할 때, VideoMarathon은 훈련 비디오의 길이를 최대 1시간까지 크게 확장하고, 단기 및 장기 비디오 이해를 모두 요구하는 22가지 다양한 작업을 지원합니다. VideoMarathon을 기반으로, 우리는 시간 단위 비디오-언어 모델링을 위한 강력하고 효율적인 Video-LMM인 Hour-LLaVA를 제안합니다. Hour-LLaVA는 메모리 증강 모듈을 활용하여 1-FPS 샘플링으로 시간 단위 비디오 훈련 및 추론을 가능하게 하며, 이 모듈은 캐시된 전체 비디오 컨텍스트에서 사용자 질문과 관련된 시공간 정보 의미를 적응적으로 통합합니다. 우리의 실험에서, Hour-LLaVA는 여러 장편 비디오-언어 벤치마크에서 최고의 성능을 달성하며, VideoMarathon 데이터셋의 높은 품질과 Hour-LLaVA 모델의 우수성을 입증했습니다.
English
Recent long-form video-language understanding benchmarks have driven progress in video large multimodal models (Video-LMMs). However, the scarcity of well-annotated long videos has left the training of hour-long Video-LLMs underexplored. To close this gap, we present VideoMarathon, a large-scale hour-long video instruction-following dataset. This dataset includes around 9,700 hours of long videos sourced from diverse domains, ranging from 3 to 60 minutes per video. Specifically, it contains 3.3M high-quality QA pairs, spanning six fundamental topics: temporality, spatiality, object, action, scene, and event. Compared to existing video instruction datasets, VideoMarathon significantly extends training video durations up to 1 hour, and supports 22 diverse tasks requiring both short- and long-term video comprehension. Building on VideoMarathon, we propose Hour-LLaVA, a powerful and efficient Video-LMM for hour-scale video-language modeling. It enables hour-long video training and inference at 1-FPS sampling by leveraging a memory augmentation module, which adaptively integrates user question-relevant and spatiotemporal-informative semantics from a cached full video context. In our experiments, Hour-LLaVA achieves the best performance on multiple long video-language benchmarks, demonstrating the high quality of the VideoMarathon dataset and the superiority of the Hour-LLaVA model.
PDF31June 6, 2025