Video-R1: Versterking van Videoredenering in MLLMs
Video-R1: Reinforcing Video Reasoning in MLLMs
March 27, 2025
Auteurs: Kaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue
cs.AI
Samenvatting
Geïnspireerd door het succes van DeepSeek-R1 in het ontlokken van redeneervaardigheden via regelgebaseerd reinforcement learning (RL), introduceren we Video-R1 als de eerste poging om het R1-paradigma systematisch te verkennen voor het ontlokken van videoredenenering binnen multimodale grote taalmodellen (MLLMs). Het direct toepassen van RL-training met het GRPO-algoritme op videoredenenering brengt echter twee primaire uitdagingen met zich mee: (i) een gebrek aan temporele modellering voor videoredenenering, en (ii) de schaarste aan hoogwaardige videoredeneneringsdata. Om deze problemen aan te pakken, stellen we eerst het T-GRPO-algoritme voor, dat modellen aanmoedigt om temporele informatie in video's te gebruiken voor redenering. Daarnaast nemen we, in plaats van uitsluitend op videodata te vertrouwen, hoogwaardige beeldredeneringsdata op in het trainingsproces. We hebben twee datasets samengesteld: Video-R1-COT-165k voor SFT-koude start en Video-R1-260k voor RL-training, beide bestaande uit beeld- en videodata. Experimentele resultaten tonen aan dat Video-R1 aanzienlijke verbeteringen bereikt op videoredeneneringsbenchmarks zoals VideoMMMU en VSI-Bench, evenals op algemene videobenchmarks zoals MVBench en TempCompass, enz. Opmerkelijk is dat Video-R1-7B een nauwkeurigheid van 35,8% behaalt op de videoruimtelijke redeneringsbenchmark VSI-bench, waarmee het het commerciële propriëtaire model GPT-4o overtreft. Alle codes, modellen en data zijn vrijgegeven.
English
Inspired by DeepSeek-R1's success in eliciting reasoning abilities through
rule-based reinforcement learning (RL), we introduce Video-R1 as the first
attempt to systematically explore the R1 paradigm for eliciting video reasoning
within multimodal large language models (MLLMs). However, directly applying RL
training with the GRPO algorithm to video reasoning presents two primary
challenges: (i) a lack of temporal modeling for video reasoning, and (ii) the
scarcity of high-quality video-reasoning data. To address these issues, we
first propose the T-GRPO algorithm, which encourages models to utilize temporal
information in videos for reasoning. Additionally, instead of relying solely on
video data, we incorporate high-quality image-reasoning data into the training
process. We have constructed two datasets: Video-R1-COT-165k for SFT cold start
and Video-R1-260k for RL training, both comprising image and video data.
Experimental results demonstrate that Video-R1 achieves significant
improvements on video reasoning benchmarks such as VideoMMMU and VSI-Bench, as
well as on general video benchmarks including MVBench and TempCompass, etc.
Notably, Video-R1-7B attains a 35.8% accuracy on video spatial reasoning
benchmark VSI-bench, surpassing the commercial proprietary model GPT-4o. All
codes, models, data are released.Summary
AI-Generated Summary