VideoSSR: Aprendizaje por Refuerzo Autosupervisado para Video
VideoSSR: Video Self-Supervised Reinforcement Learning
November 9, 2025
Autores: Zefeng He, Xiaoye Qu, Yafu Li, Siyuan Huang, Daizong Liu, Yu Cheng
cs.AI
Resumen
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha avanzado sustancialmente las capacidades de comprensión de vídeo de los Modelos de Lenguaje Grandes Multimodales (MLLM). Sin embargo, el rápido progreso de los MLLM está superando la complejidad de los conjuntos de datos de vídeo existentes, mientras que la anotación manual de nuevos datos de alta calidad sigue siendo prohibitivamente costosa. Este trabajo investiga una pregunta fundamental: ¿Se puede aprovechar la información intrínseca y rica dentro de los vídeos para autogenerar datos de entrenamiento de alta calidad y verificables? Para investigarlo, presentamos tres tareas de pretexto auto-supervisadas: Anclaje de Anomalías, Conteo de Objetos y Rompecabezas Temporal. Construimos el Benchmark de Comprensión Intrínseca de Vídeo (VIUBench) para validar su dificultad, revelando que los MLLM más avanzados actuales tienen dificultades significativas en estas tareas. Sobre la base de estas tareas de pretexto, desarrollamos el conjunto de datos VideoSSR-30K y proponemos VideoSSR, un novedoso marco de aprendizaje por refuerzo auto-supervisado para vídeo aplicado a RLVR. Experimentos exhaustivos en 17 benchmarks, que abarcan cuatro dominios principales de vídeo (QA de Vídeo General, QA de Vídeo Largo, Anclaje Temporal y Razonamiento Complejo), demuestran que VideoSSR mejora consistentemente el rendimiento del modelo, produciendo una mejora promedio de más del 5%. Estos resultados establecen a VideoSSR como un marco fundamental potente para desarrollar una comprensión de vídeo más avanzada en los MLLM. El código está disponible en https://github.com/lcqysl/VideoSSR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has substantially
advanced the video understanding capabilities of Multimodal Large Language
Models (MLLMs). However, the rapid progress of MLLMs is outpacing the
complexity of existing video datasets, while the manual annotation of new,
high-quality data remains prohibitively expensive. This work investigates a
pivotal question: Can the rich, intrinsic information within videos be
harnessed to self-generate high-quality, verifiable training data? To
investigate this, we introduce three self-supervised pretext tasks: Anomaly
Grounding, Object Counting, and Temporal Jigsaw. We construct the Video
Intrinsic Understanding Benchmark (VIUBench) to validate their difficulty,
revealing that current state-of-the-art MLLMs struggle significantly on these
tasks. Building upon these pretext tasks, we develop the VideoSSR-30K dataset
and propose VideoSSR, a novel video self-supervised reinforcement learning
framework for RLVR. Extensive experiments across 17 benchmarks, spanning four
major video domains (General Video QA, Long Video QA, Temporal Grounding, and
Complex Reasoning), demonstrate that VideoSSR consistently enhances model
performance, yielding an average improvement of over 5\%. These results
establish VideoSSR as a potent foundational framework for developing more
advanced video understanding in MLLMs. The code is available at
https://github.com/lcqysl/VideoSSR.