Video-R1: Versterking van Videoredenering in MLLMs

Samenvatting

Geïnspireerd door het succes van DeepSeek-R1 in het ontlokken van redeneervaardigheden via regelgebaseerd reinforcement learning (RL), introduceren we Video-R1 als de eerste poging om het R1-paradigma systematisch te verkennen voor het ontlokken van videoredenenering binnen multimodale grote taalmodellen (MLLMs). Het direct toepassen van RL-training met het GRPO-algoritme op videoredenenering brengt echter twee primaire uitdagingen met zich mee: (i) een gebrek aan temporele modellering voor videoredenenering, en (ii) de schaarste aan hoogwaardige videoredeneneringsdata. Om deze problemen aan te pakken, stellen we eerst het T-GRPO-algoritme voor, dat modellen aanmoedigt om temporele informatie in video's te gebruiken voor redenering. Daarnaast nemen we, in plaats van uitsluitend op videodata te vertrouwen, hoogwaardige beeldredeneringsdata op in het trainingsproces. We hebben twee datasets samengesteld: Video-R1-COT-165k voor SFT-koude start en Video-R1-260k voor RL-training, beide bestaande uit beeld- en videodata. Experimentele resultaten tonen aan dat Video-R1 aanzienlijke verbeteringen bereikt op videoredeneneringsbenchmarks zoals VideoMMMU en VSI-Bench, evenals op algemene videobenchmarks zoals MVBench en TempCompass, enz. Opmerkelijk is dat Video-R1-7B een nauwkeurigheid van 35,8% behaalt op de videoruimtelijke redeneringsbenchmark VSI-bench, waarmee het het commerciële propriëtaire model GPT-4o overtreft. Alle codes, modellen en data zijn vrijgegeven.

English

Inspired by DeepSeek-R1's success in eliciting reasoning abilities through rule-based reinforcement learning (RL), we introduce Video-R1 as the first attempt to systematically explore the R1 paradigm for eliciting video reasoning within multimodal large language models (MLLMs). However, directly applying RL training with the GRPO algorithm to video reasoning presents two primary challenges: (i) a lack of temporal modeling for video reasoning, and (ii) the scarcity of high-quality video-reasoning data. To address these issues, we first propose the T-GRPO algorithm, which encourages models to utilize temporal information in videos for reasoning. Additionally, instead of relying solely on video data, we incorporate high-quality image-reasoning data into the training process. We have constructed two datasets: Video-R1-COT-165k for SFT cold start and Video-R1-260k for RL training, both comprising image and video data. Experimental results demonstrate that Video-R1 achieves significant improvements on video reasoning benchmarks such as VideoMMMU and VSI-Bench, as well as on general video benchmarks including MVBench and TempCompass, etc. Notably, Video-R1-7B attains a 35.8% accuracy on video spatial reasoning benchmark VSI-bench, surpassing the commercial proprietary model GPT-4o. All codes, models, data are released.

Video-R1: Versterking van Videoredenering in MLLMs

Video-R1: Reinforcing Video Reasoning in MLLMs

Samenvatting

Support