VideoSSR: Apprendimento per Rinforzo Autosupervisionato su Video
VideoSSR: Video Self-Supervised Reinforcement Learning
November 9, 2025
Autori: Zefeng He, Xiaoye Qu, Yafu Li, Siyuan Huang, Daizong Liu, Yu Cheng
cs.AI
Abstract
Il Reinforcement Learning con Ricompense Verificabili (RLVR) ha notevolmente potenziato le capacità di comprensione video dei Modelli Linguistici Multimodali di Grande Dimensione (MLLM). Tuttavia, il rapido progresso degli MLLM sta superando la complessità dei dataset video esistenti, mentre l'annotazione manuale di nuovi dati di alta qualità rimane proibitivamente costosa. Questo lavoro indaga una questione cruciale: le ricche informazioni intrinseche presenti nei video possono essere sfruttate per auto-generare dati di addestramento di alta qualità e verificabili? Per esplorare questa possibilità, introduciamo tre task di pre-testo auto-supervisionati: Anomaly Grounding, Object Counting e Temporal Jigsaw. Costruiamo il Benchmark di Comprensione Intrinseca Video (VIUBench) per verificarne la difficoltà, rivelando che gli attuali MLLM all'avanguardia mostrano notevoli difficoltà in questi compiti. Sulla base di questi task di pre-testo, sviluppiamo il dataset VideoSSR-30K e proponiamo VideoSSR, un innovativo framework di reinforcement learning auto-supervisionato per video applicato all'RLVR. Esperimenti estesi su 17 benchmark, che coprono quattro principali domini video (QA Video Generale, QA Video Lungo, Temporal Grounding e Ragionamento Complesso), dimostrano che VideoSSR migliora costantemente le prestazioni del modello, producendo un miglioramento medio superiore al 5%. Questi risultati stabiliscono VideoSSR come un potente framework fondamentale per lo sviluppo di capacità di comprensione video più avanzate negli MLLM. Il codice è disponibile all'indirizzo https://github.com/lcqysl/VideoSSR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has substantially
advanced the video understanding capabilities of Multimodal Large Language
Models (MLLMs). However, the rapid progress of MLLMs is outpacing the
complexity of existing video datasets, while the manual annotation of new,
high-quality data remains prohibitively expensive. This work investigates a
pivotal question: Can the rich, intrinsic information within videos be
harnessed to self-generate high-quality, verifiable training data? To
investigate this, we introduce three self-supervised pretext tasks: Anomaly
Grounding, Object Counting, and Temporal Jigsaw. We construct the Video
Intrinsic Understanding Benchmark (VIUBench) to validate their difficulty,
revealing that current state-of-the-art MLLMs struggle significantly on these
tasks. Building upon these pretext tasks, we develop the VideoSSR-30K dataset
and propose VideoSSR, a novel video self-supervised reinforcement learning
framework for RLVR. Extensive experiments across 17 benchmarks, spanning four
major video domains (General Video QA, Long Video QA, Temporal Grounding, and
Complex Reasoning), demonstrate that VideoSSR consistently enhances model
performance, yielding an average improvement of over 5\%. These results
establish VideoSSR as a potent foundational framework for developing more
advanced video understanding in MLLMs. The code is available at
https://github.com/lcqysl/VideoSSR.