VideoSSR : Apprentissage par Renforcement Auto-Supervisé pour la Vidéo
VideoSSR: Video Self-Supervised Reinforcement Learning
November 9, 2025
papers.authors: Zefeng He, Xiaoye Qu, Yafu Li, Siyuan Huang, Daizong Liu, Yu Cheng
cs.AI
papers.abstract
Le Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) a considérablement fait progresser les capacités de compréhension vidéo des Modèles de Langage Multimodaux à Grande Échelle (MLLM). Cependant, la progression rapide des MLLM dépasse la complexité des ensembles de données vidéo existants, tandis que l'annotation manuelle de nouvelles données de haute qualité reste prohibitivement coûteuse. Ce travail explore une question centrale : Les informations intrinsèques et riches des vidéos peuvent-elles être exploitées pour auto-générer des données d'entraînement de haute qualité et vérifiables ? Pour investiguer cela, nous introduisons trois tâches prétextes auto-supervisées : l'Ancrage d'Anomalies, le Comptage d'Objets et le Puzzle Temporel. Nous construisons le Benchmark de Compréhension Intrinsèque des Vidéos (VIUBench) pour valider leur difficulté, révélant que les MLLM de pointe actuels éprouvent des difficultés significatives sur ces tâches. En nous appuyant sur ces tâches prétextes, nous développons l'ensemble de données VideoSSR-30K et proposons VideoSSR, un nouveau cadre d'apprentissage par renforcement auto-supervisé pour la vidéo destiné au RLVR. Des expériences approfondies sur 17 benchmarks, couvrant quatre domaines vidéo majeurs (QA Vidéo Générale, QA Vidéo Longue, Ancrage Temporel et Raisonnement Complexe), démontrent que VideoSSR améliore constamment les performances des modèles, produisant une amélioration moyenne de plus de 5 %. Ces résultats établissent VideoSSR comme un cadre fondamental puissant pour développer une compréhension vidéo plus avancée dans les MLLM. Le code est disponible à l'adresse https://github.com/lcqysl/VideoSSR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has substantially
advanced the video understanding capabilities of Multimodal Large Language
Models (MLLMs). However, the rapid progress of MLLMs is outpacing the
complexity of existing video datasets, while the manual annotation of new,
high-quality data remains prohibitively expensive. This work investigates a
pivotal question: Can the rich, intrinsic information within videos be
harnessed to self-generate high-quality, verifiable training data? To
investigate this, we introduce three self-supervised pretext tasks: Anomaly
Grounding, Object Counting, and Temporal Jigsaw. We construct the Video
Intrinsic Understanding Benchmark (VIUBench) to validate their difficulty,
revealing that current state-of-the-art MLLMs struggle significantly on these
tasks. Building upon these pretext tasks, we develop the VideoSSR-30K dataset
and propose VideoSSR, a novel video self-supervised reinforcement learning
framework for RLVR. Extensive experiments across 17 benchmarks, spanning four
major video domains (General Video QA, Long Video QA, Temporal Grounding, and
Complex Reasoning), demonstrate that VideoSSR consistently enhances model
performance, yielding an average improvement of over 5\%. These results
establish VideoSSR as a potent foundational framework for developing more
advanced video understanding in MLLMs. The code is available at
https://github.com/lcqysl/VideoSSR.