VideoSSR: Zelf-gesuperviseerd Versterkend Leren voor Video's
VideoSSR: Video Self-Supervised Reinforcement Learning
November 9, 2025
Auteurs: Zefeng He, Xiaoye Qu, Yafu Li, Siyuan Huang, Daizong Liu, Yu Cheng
cs.AI
Samenvatting
Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft de videobegripcapaciteiten van Multimodale Large Language Models (MLLM's) aanzienlijk verbeterd. De snelle vooruitgang van MLLM's overtreft echter de complexiteit van bestaande videodatasets, terwijl de handmatige annotatie van nieuwe, hoogwaardige data onbetaalbaar duur blijft. Dit werk onderzoekt een cruciale vraag: Kan de rijke, intrinsieke informatie in video's worden benut om zelf hoogwaardige, verifieerbare trainingsdata te genereren? Om dit te onderzoeken, introduceren we drie zelfgesuperviseerde pretext-taken: Anomaly Grounding, Object Counting en Temporal Jigsaw. We construeren de Video Intrinsic Understanding Benchmark (VIUBench) om hun moeilijkheidsgraad te valideren, waaruit blijkt dat state-of-the-art MLLM's significant moeite hebben met deze taken. Voortbouwend op deze pretext-taken ontwikkelen we de VideoSSR-30K-dataset en stellen we VideoSSR voor, een nieuw zelfgesuperviseerd reinforcement learning-framework voor video's ten behoeve van RLVR. Uitgebreide experimenten op 17 benchmarks, verspreid over vier belangrijke videodomeinen (General Video QA, Long Video QA, Temporal Grounding en Complex Reasoning), tonen aan dat VideoSSR de modelprestaties consistent verbetert, met een gemiddelde verbetering van meer dan 5%. Deze resultaten positioneren VideoSSR als een krachtig basiskader voor de ontwikkeling van geavanceerder videobegrip in MLLM's. De code is beschikbaar op https://github.com/lcqysl/VideoSSR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has substantially
advanced the video understanding capabilities of Multimodal Large Language
Models (MLLMs). However, the rapid progress of MLLMs is outpacing the
complexity of existing video datasets, while the manual annotation of new,
high-quality data remains prohibitively expensive. This work investigates a
pivotal question: Can the rich, intrinsic information within videos be
harnessed to self-generate high-quality, verifiable training data? To
investigate this, we introduce three self-supervised pretext tasks: Anomaly
Grounding, Object Counting, and Temporal Jigsaw. We construct the Video
Intrinsic Understanding Benchmark (VIUBench) to validate their difficulty,
revealing that current state-of-the-art MLLMs struggle significantly on these
tasks. Building upon these pretext tasks, we develop the VideoSSR-30K dataset
and propose VideoSSR, a novel video self-supervised reinforcement learning
framework for RLVR. Extensive experiments across 17 benchmarks, spanning four
major video domains (General Video QA, Long Video QA, Temporal Grounding, and
Complex Reasoning), demonstrate that VideoSSR consistently enhances model
performance, yielding an average improvement of over 5\%. These results
establish VideoSSR as a potent foundational framework for developing more
advanced video understanding in MLLMs. The code is available at
https://github.com/lcqysl/VideoSSR.