VideoSSR: Selbstüberwachtes verstärkendes Lernen für Videos
VideoSSR: Video Self-Supervised Reinforcement Learning
November 9, 2025
papers.authors: Zefeng He, Xiaoye Qu, Yafu Li, Siyuan Huang, Daizong Liu, Yu Cheng
cs.AI
papers.abstract
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat die Videoverständnisfähigkeiten multimodaler großer Sprachmodelle (MLLMs) erheblich verbessert. Der rasante Fortschritt von MLLMs übertrifft jedoch zunehmend die Komplexität bestehender Videodatensätze, während die manuelle Annotation neuer, hochwertiger Daten nach wie vor unverhältnismäßig teuer bleibt. Diese Arbeit untersucht eine zentrale Frage: Lässt sich die intrinsisch reichhaltige Information in Videos nutzen, um selbstständig hochwertige, verifizierbare Trainingsdaten zu generieren? Um dies zu erforschen, führen wir drei selbstüberwachte Pretext-Aufgaben ein: Anomaly Grounding, Object Counting und Temporal Jigsaw. Wir konstruieren den Video Intrinsic Understanding Benchmark (VIUBench), um deren Schwierigkeitsgrad zu validieren, und zeigen, dass aktuelle state-of-the-art MLLMs bei diesen Aufgaben erheblich scheitern. Aufbauend auf diesen Pretext-Aufgaben entwickeln wir den VideoSSR-30K-Datensatz und schlagen VideoSSR vor, einen neuartigen, selbstüberwachten Reinforcement-Learning-Rahmen für RLVR in Videos vor. Umfangreiche Experimente auf 17 Benchmarks, die vier große Videodomänen abdecken (General Video QA, Long Video QA, Temporal Grounding und Complex Reasoning), demonstrieren, dass VideoSSR die Modellleistung konsistent steigert und durchschnittlich eine Verbesserung von über 5 % erzielt. Diese Ergebnisse etablieren VideoSSR als ein leistungsstarkes Grundlagenframework für die Entwicklung fortschrittlicherer Videoverständnisfähigkeiten in MLLMs. Der Code ist verfügbar unter https://github.com/lcqysl/VideoSSR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has substantially
advanced the video understanding capabilities of Multimodal Large Language
Models (MLLMs). However, the rapid progress of MLLMs is outpacing the
complexity of existing video datasets, while the manual annotation of new,
high-quality data remains prohibitively expensive. This work investigates a
pivotal question: Can the rich, intrinsic information within videos be
harnessed to self-generate high-quality, verifiable training data? To
investigate this, we introduce three self-supervised pretext tasks: Anomaly
Grounding, Object Counting, and Temporal Jigsaw. We construct the Video
Intrinsic Understanding Benchmark (VIUBench) to validate their difficulty,
revealing that current state-of-the-art MLLMs struggle significantly on these
tasks. Building upon these pretext tasks, we develop the VideoSSR-30K dataset
and propose VideoSSR, a novel video self-supervised reinforcement learning
framework for RLVR. Extensive experiments across 17 benchmarks, spanning four
major video domains (General Video QA, Long Video QA, Temporal Grounding, and
Complex Reasoning), demonstrate that VideoSSR consistently enhances model
performance, yielding an average improvement of over 5\%. These results
establish VideoSSR as a potent foundational framework for developing more
advanced video understanding in MLLMs. The code is available at
https://github.com/lcqysl/VideoSSR.