VideoSSR: Aprendizagem por Reforço Autossupervisionada em Vídeo

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) avançou substancialmente as capacidades de compreensão de vídeo dos Modelos de Linguagem Multimodais de Grande Porte (MLLMs). No entanto, o rápido progresso dos MLLMs está superando a complexidade dos conjuntos de dados de vídeo existentes, enquanto a anotação manual de novos dados de alta qualidade permanece proibitivamente cara. Este trabalho investiga uma questão fundamental: A rica informação intrínseca contida nos vídeos pode ser aproveitada para auto-gerar dados de treinamento de alta qualidade e verificáveis? Para investigar isso, introduzimos três tarefas de pretexto auto-supervisionadas: Ancoragem de Anomalias, Contagem de Objetos e Quebra-Cabeça Temporal. Construímos o *Benchmark* de Compreensão Intrínseca de Vídeo (VIUBench) para validar sua dificuldade, revelando que os MLLMs estado da arte atuais têm dificuldades significativas nessas tarefas. Com base nessas tarefas de pretexto, desenvolvemos o conjunto de dados VideoSSR-30K e propomos o VideoSSR, uma nova estrutura de aprendizado por reforço auto-supervisionado para vídeo para RLVR. Experimentos extensos em 17 *benchmarks*, abrangendo quatro domínios principais de vídeo (QA de Vídeo Geral, QA de Vídeo Longo, Ancoragem Temporal e Raciocínio Complexo), demonstram que o VideoSSR melhora consistentemente o desempenho do modelo, resultando em uma melhoria média superior a 5%. Esses resultados estabelecem o VideoSSR como uma estrutura fundamental potente para o desenvolvimento de uma compreensão de vídeo mais avançada em MLLMs. O código está disponível em https://github.com/lcqysl/VideoSSR.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has substantially advanced the video understanding capabilities of Multimodal Large Language Models (MLLMs). However, the rapid progress of MLLMs is outpacing the complexity of existing video datasets, while the manual annotation of new, high-quality data remains prohibitively expensive. This work investigates a pivotal question: Can the rich, intrinsic information within videos be harnessed to self-generate high-quality, verifiable training data? To investigate this, we introduce three self-supervised pretext tasks: Anomaly Grounding, Object Counting, and Temporal Jigsaw. We construct the Video Intrinsic Understanding Benchmark (VIUBench) to validate their difficulty, revealing that current state-of-the-art MLLMs struggle significantly on these tasks. Building upon these pretext tasks, we develop the VideoSSR-30K dataset and propose VideoSSR, a novel video self-supervised reinforcement learning framework for RLVR. Extensive experiments across 17 benchmarks, spanning four major video domains (General Video QA, Long Video QA, Temporal Grounding, and Complex Reasoning), demonstrate that VideoSSR consistently enhances model performance, yielding an average improvement of over 5\%. These results establish VideoSSR as a potent foundational framework for developing more advanced video understanding in MLLMs. The code is available at https://github.com/lcqysl/VideoSSR.

VideoSSR: Aprendizagem por Reforço Autossupervisionada em Vídeo

VideoSSR: Video Self-Supervised Reinforcement Learning

Resumo

Support