VideoSSR: Видео-самообучающееся обучение с подкреплением
VideoSSR: Video Self-Supervised Reinforcement Learning
November 9, 2025
Авторы: Zefeng He, Xiaoye Qu, Yafu Li, Siyuan Huang, Daizong Liu, Yu Cheng
cs.AI
Аннотация
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) существенно расширило возможности мультимодальных больших языковых моделей (MLLM) в области понимания видео. Однако быстрый прогресс MLLM опережает сложность существующих видеодатасетов, в то время как ручная разметка новых высококачественных данных остается чрезмерно дорогостоящей. В данной работе исследуется ключевой вопрос: можно ли использовать богатую внутреннюю информацию видео для самостоятельной генерации высококачественных, верифицируемых обучающих данных? Для изучения этого мы предлагаем три самоконтролируемые задачи-примеси: локализация аномалий, подсчет объектов и временной джигсо-пазл. Мы создали бенчмарк Video Intrinsic Understanding Benchmark (VIUBench) для оценки их сложности, который показал, что современные MLLM испытывают значительные трудности при решении этих задач. На основе этих задач-примесей мы разработали датасет VideoSSR-30K и предложили VideoSSR — новую систему самоконтролируемого обучения с подкреплением на видео для RLVR. Масштабные эксперименты на 17 бенчмарках, охватывающих четыре основные видеодомена (общие вопросы по видео, вопросы по длинным видео, временная локализация и сложные рассуждения), демонстрируют, что VideoSSR стабильно улучшает производительность модели, обеспечивая средний прирост более чем на 5%. Эти результаты устанавливают VideoSSR в качестве мощной базовой архитектуры для развития более продвинутого понимания видео в MLLM. Код доступен по адресу https://github.com/lcqysl/VideoSSR.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has substantially
advanced the video understanding capabilities of Multimodal Large Language
Models (MLLMs). However, the rapid progress of MLLMs is outpacing the
complexity of existing video datasets, while the manual annotation of new,
high-quality data remains prohibitively expensive. This work investigates a
pivotal question: Can the rich, intrinsic information within videos be
harnessed to self-generate high-quality, verifiable training data? To
investigate this, we introduce three self-supervised pretext tasks: Anomaly
Grounding, Object Counting, and Temporal Jigsaw. We construct the Video
Intrinsic Understanding Benchmark (VIUBench) to validate their difficulty,
revealing that current state-of-the-art MLLMs struggle significantly on these
tasks. Building upon these pretext tasks, we develop the VideoSSR-30K dataset
and propose VideoSSR, a novel video self-supervised reinforcement learning
framework for RLVR. Extensive experiments across 17 benchmarks, spanning four
major video domains (General Video QA, Long Video QA, Temporal Grounding, and
Complex Reasoning), demonstrate that VideoSSR consistently enhances model
performance, yielding an average improvement of over 5\%. These results
establish VideoSSR as a potent foundational framework for developing more
advanced video understanding in MLLMs. The code is available at
https://github.com/lcqysl/VideoSSR.