VideoSSR: Zelf-gesuperviseerd Versterkend Leren voor Video's

Samenvatting

Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft de videobegripcapaciteiten van Multimodale Large Language Models (MLLM's) aanzienlijk verbeterd. De snelle vooruitgang van MLLM's overtreft echter de complexiteit van bestaande videodatasets, terwijl de handmatige annotatie van nieuwe, hoogwaardige data onbetaalbaar duur blijft. Dit werk onderzoekt een cruciale vraag: Kan de rijke, intrinsieke informatie in video's worden benut om zelf hoogwaardige, verifieerbare trainingsdata te genereren? Om dit te onderzoeken, introduceren we drie zelfgesuperviseerde pretext-taken: Anomaly Grounding, Object Counting en Temporal Jigsaw. We construeren de Video Intrinsic Understanding Benchmark (VIUBench) om hun moeilijkheidsgraad te valideren, waaruit blijkt dat state-of-the-art MLLM's significant moeite hebben met deze taken. Voortbouwend op deze pretext-taken ontwikkelen we de VideoSSR-30K-dataset en stellen we VideoSSR voor, een nieuw zelfgesuperviseerd reinforcement learning-framework voor video's ten behoeve van RLVR. Uitgebreide experimenten op 17 benchmarks, verspreid over vier belangrijke videodomeinen (General Video QA, Long Video QA, Temporal Grounding en Complex Reasoning), tonen aan dat VideoSSR de modelprestaties consistent verbetert, met een gemiddelde verbetering van meer dan 5%. Deze resultaten positioneren VideoSSR als een krachtig basiskader voor de ontwikkeling van geavanceerder videobegrip in MLLM's. De code is beschikbaar op https://github.com/lcqysl/VideoSSR.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has substantially advanced the video understanding capabilities of Multimodal Large Language Models (MLLMs). However, the rapid progress of MLLMs is outpacing the complexity of existing video datasets, while the manual annotation of new, high-quality data remains prohibitively expensive. This work investigates a pivotal question: Can the rich, intrinsic information within videos be harnessed to self-generate high-quality, verifiable training data? To investigate this, we introduce three self-supervised pretext tasks: Anomaly Grounding, Object Counting, and Temporal Jigsaw. We construct the Video Intrinsic Understanding Benchmark (VIUBench) to validate their difficulty, revealing that current state-of-the-art MLLMs struggle significantly on these tasks. Building upon these pretext tasks, we develop the VideoSSR-30K dataset and propose VideoSSR, a novel video self-supervised reinforcement learning framework for RLVR. Extensive experiments across 17 benchmarks, spanning four major video domains (General Video QA, Long Video QA, Temporal Grounding, and Complex Reasoning), demonstrate that VideoSSR consistently enhances model performance, yielding an average improvement of over 5\%. These results establish VideoSSR as a potent foundational framework for developing more advanced video understanding in MLLMs. The code is available at https://github.com/lcqysl/VideoSSR.

VideoSSR: Zelf-gesuperviseerd Versterkend Leren voor Video's

VideoSSR: Video Self-Supervised Reinforcement Learning

Samenvatting

Support