VideoSSR: 비디오 자기 지도 강화 학습
VideoSSR: Video Self-Supervised Reinforcement Learning
November 9, 2025
저자: Zefeng He, Xiaoye Qu, Yafu Li, Siyuan Huang, Daizong Liu, Yu Cheng
cs.AI
초록
검증 가능한 보상 강화 학습(RLVR)은 멀티모달 대규모 언어 모델(MLLM)의 비디오 이해 능력을 크게 발전시켰습니다. 그러나 MLLM의 급속한 발전은 기존 비디오 데이터셋의 복잡성을 넘어서고 있으며, 새로운 고품질 데이터의 수동 주석 작업은 여전히 비용이 매우 많이 듭니다. 본 연구는 핵심적인 질문을 탐구합니다: 비디오 내 풍부한 내재 정보를 활용하여 고품질의 검증 가능한 훈련 데이터를 자체 생성할 수 있을까? 이를 확인하기 위해 우리는 세 가지 자기 지도 예비 작업(Anomaly Grounding, Object Counting, Temporal Jigsaw)을 소개합니다. 우리는 이러한 작업들의 난이도를 검증하기 위해 Video Intrinsic Understanding Benchmark(VIUBench)를 구축했으며, 최첨단 MLLM들이 이러한 작업에서 상당히 어려움을 겪는다는 사실을 밝혀냈습니다. 이러한 예비 작업을 바탕으로 우리는 VideoSSR-30K 데이터셋을 구축하고 RLVR을 위한 새로운 비디오 자기 지도 강화 학습 프레임워크인 VideoSSR을 제안합니다. 4대 주요 비디오 영역(일반 비디오 질의응답, 장편 비디오 질의응답, 시간적 근거, 복잡 추론)에 걸친 17개 벤치마크에서의 광범위한 실험을 통해 VideoSSR이 모델 성능을 지속적으로 향상시키며 평균 5% 이상의 개선을 가져옴을 입증했습니다. 이러한 결과는 VideoSSR이 MLLM에서 더 발전된 비디오 이해를 개발하기 위한 강력한 기초 프레임워크임을 입증합니다. 코드는 https://github.com/lcqysl/VideoSSR에서 확인할 수 있습니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has substantially
advanced the video understanding capabilities of Multimodal Large Language
Models (MLLMs). However, the rapid progress of MLLMs is outpacing the
complexity of existing video datasets, while the manual annotation of new,
high-quality data remains prohibitively expensive. This work investigates a
pivotal question: Can the rich, intrinsic information within videos be
harnessed to self-generate high-quality, verifiable training data? To
investigate this, we introduce three self-supervised pretext tasks: Anomaly
Grounding, Object Counting, and Temporal Jigsaw. We construct the Video
Intrinsic Understanding Benchmark (VIUBench) to validate their difficulty,
revealing that current state-of-the-art MLLMs struggle significantly on these
tasks. Building upon these pretext tasks, we develop the VideoSSR-30K dataset
and propose VideoSSR, a novel video self-supervised reinforcement learning
framework for RLVR. Extensive experiments across 17 benchmarks, spanning four
major video domains (General Video QA, Long Video QA, Temporal Grounding, and
Complex Reasoning), demonstrate that VideoSSR consistently enhances model
performance, yielding an average improvement of over 5\%. These results
establish VideoSSR as a potent foundational framework for developing more
advanced video understanding in MLLMs. The code is available at
https://github.com/lcqysl/VideoSSR.