VideoSSR: Aprendizagem por Reforço Autossupervisionada em Vídeo
VideoSSR: Video Self-Supervised Reinforcement Learning
November 9, 2025
Autores: Zefeng He, Xiaoye Qu, Yafu Li, Siyuan Huang, Daizong Liu, Yu Cheng
cs.AI
Resumo
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) avançou substancialmente as capacidades de compreensão de vídeo dos Modelos de Linguagem Multimodais de Grande Porte (MLLMs). No entanto, o rápido progresso dos MLLMs está superando a complexidade dos conjuntos de dados de vídeo existentes, enquanto a anotação manual de novos dados de alta qualidade permanece proibitivamente cara. Este trabalho investiga uma questão fundamental: A rica informação intrínseca contida nos vídeos pode ser aproveitada para auto-gerar dados de treinamento de alta qualidade e verificáveis? Para investigar isso, introduzimos três tarefas de pretexto auto-supervisionadas: Ancoragem de Anomalias, Contagem de Objetos e Quebra-Cabeça Temporal. Construímos o *Benchmark* de Compreensão Intrínseca de Vídeo (VIUBench) para validar sua dificuldade, revelando que os MLLMs estado da arte atuais têm dificuldades significativas nessas tarefas. Com base nessas tarefas de pretexto, desenvolvemos o conjunto de dados VideoSSR-30K e propomos o VideoSSR, uma nova estrutura de aprendizado por reforço auto-supervisionado para vídeo para RLVR. Experimentos extensos em 17 *benchmarks*, abrangendo quatro domínios principais de vídeo (QA de Vídeo Geral, QA de Vídeo Longo, Ancoragem Temporal e Raciocínio Complexo), demonstram que o VideoSSR melhora consistentemente o desempenho do modelo, resultando em uma melhoria média superior a 5%. Esses resultados estabelecem o VideoSSR como uma estrutura fundamental potente para o desenvolvimento de uma compreensão de vídeo mais avançada em MLLMs. O código está disponível em https://github.com/lcqysl/VideoSSR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has substantially
advanced the video understanding capabilities of Multimodal Large Language
Models (MLLMs). However, the rapid progress of MLLMs is outpacing the
complexity of existing video datasets, while the manual annotation of new,
high-quality data remains prohibitively expensive. This work investigates a
pivotal question: Can the rich, intrinsic information within videos be
harnessed to self-generate high-quality, verifiable training data? To
investigate this, we introduce three self-supervised pretext tasks: Anomaly
Grounding, Object Counting, and Temporal Jigsaw. We construct the Video
Intrinsic Understanding Benchmark (VIUBench) to validate their difficulty,
revealing that current state-of-the-art MLLMs struggle significantly on these
tasks. Building upon these pretext tasks, we develop the VideoSSR-30K dataset
and propose VideoSSR, a novel video self-supervised reinforcement learning
framework for RLVR. Extensive experiments across 17 benchmarks, spanning four
major video domains (General Video QA, Long Video QA, Temporal Grounding, and
Complex Reasoning), demonstrate that VideoSSR consistently enhances model
performance, yielding an average improvement of over 5\%. These results
establish VideoSSR as a potent foundational framework for developing more
advanced video understanding in MLLMs. The code is available at
https://github.com/lcqysl/VideoSSR.