ChatPaper.aiChatPaper

VideoSSR: ビデオ自己教師付き強化学習

VideoSSR: Video Self-Supervised Reinforcement Learning

November 9, 2025
著者: Zefeng He, Xiaoye Qu, Yafu Li, Siyuan Huang, Daizong Liu, Yu Cheng
cs.AI

要旨

検証可能な報酬を用いた強化学習(RLVR)は、マルチモーダル大規模言語モデル(MLLM)の動画理解能力を大幅に進展させてきた。しかし、MLLMの急速な進歩は既存の動画データセットの複雑さを凌駕しており、新たな高品質なデータの人手による注釈付けは依然として非常に高コストである。本研究は核心的な問いを探求する:動画内に内在する豊富な情報を利用して、高品質で検証可能な訓練データを自己生成することは可能か?これを検証するため、3つの自己教師あり前課題(Anomaly Grounding、Object Counting、Temporal Jigsaw)を導入する。これらの課題の難易度を検証するため、動画内在理解ベンチマーク(VIUBench)を構築し、現在の最先端MLLMがこれらの課題に著しく苦戦することを明らかにした。これらの前課題に基づき、VideoSSR-30Kデータセットを構築し、RLVRのための新しい動画自己教師あり強化学習フレームワークであるVideoSSRを提案する。4つの主要動画領域(一般動画QA、長尺動画QA、時間的定位、複雑推論)にわたる17のベンチマークでの大規模な実験により、VideoSSRがモデル性能を一貫して向上させ、平均5%以上の改善をもたらすことが実証された。これらの結果は、VideoSSRがMLLMにおけるより高度な動画理解を開発するための強力な基盤フレームワークであることを示している。コードはhttps://github.com/lcqysl/VideoSSR で公開されている。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has substantially advanced the video understanding capabilities of Multimodal Large Language Models (MLLMs). However, the rapid progress of MLLMs is outpacing the complexity of existing video datasets, while the manual annotation of new, high-quality data remains prohibitively expensive. This work investigates a pivotal question: Can the rich, intrinsic information within videos be harnessed to self-generate high-quality, verifiable training data? To investigate this, we introduce three self-supervised pretext tasks: Anomaly Grounding, Object Counting, and Temporal Jigsaw. We construct the Video Intrinsic Understanding Benchmark (VIUBench) to validate their difficulty, revealing that current state-of-the-art MLLMs struggle significantly on these tasks. Building upon these pretext tasks, we develop the VideoSSR-30K dataset and propose VideoSSR, a novel video self-supervised reinforcement learning framework for RLVR. Extensive experiments across 17 benchmarks, spanning four major video domains (General Video QA, Long Video QA, Temporal Grounding, and Complex Reasoning), demonstrate that VideoSSR consistently enhances model performance, yielding an average improvement of over 5\%. These results establish VideoSSR as a potent foundational framework for developing more advanced video understanding in MLLMs. The code is available at https://github.com/lcqysl/VideoSSR.
PDF242December 2, 2025