Video-R1: MLLM에서 비디오 추론 강화하기
Video-R1: Reinforcing Video Reasoning in MLLMs
March 27, 2025
저자: Kaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue
cs.AI
초록
DeepSeek-R1이 규칙 기반 강화 학습(RL)을 통해 추론 능력을 유도한 성공에 영감을 받아, 우리는 다중 모드 대형 언어 모델(MLLMs) 내에서 비디오 추론을 유도하기 위한 R1 패러다임을 체계적으로 탐구하는 첫 시도로 Video-R1을 소개합니다. 그러나 GRPO 알고리즘을 사용한 RL 훈련을 비디오 추론에 직접 적용하는 데는 두 가지 주요 과제가 있습니다: (i) 비디오 추론을 위한 시간적 모델링의 부재, (ii) 고품질 비디오 추론 데이터의 부족. 이러한 문제를 해결하기 위해, 우리는 먼저 모델이 비디오의 시간적 정보를 활용하여 추론하도록 장려하는 T-GRPO 알고리즘을 제안합니다. 또한, 비디오 데이터에만 의존하는 대신 고품질 이미지 추론 데이터를 훈련 과정에 통합합니다. 우리는 SFT 콜드 스타트를 위한 Video-R1-COT-165k와 RL 훈련을 위한 Video-R1-260k라는 두 데이터셋을 구축했으며, 둘 다 이미지와 비디오 데이터로 구성되어 있습니다. 실험 결과는 Video-R1이 VideoMMMU 및 VSI-Bench와 같은 비디오 추론 벤치마크뿐만 아니라 MVBench 및 TempCompass 등 일반 비디오 벤치마크에서도 상당한 개선을 달성했음을 보여줍니다. 특히, Video-R1-7B는 비디오 공간 추론 벤치마크 VSI-Bench에서 35.8%의 정확도를 달성하여 상용 전용 모델 GPT-4o를 능가했습니다. 모든 코드, 모델, 데이터가 공개되었습니다.
English
Inspired by DeepSeek-R1's success in eliciting reasoning abilities through
rule-based reinforcement learning (RL), we introduce Video-R1 as the first
attempt to systematically explore the R1 paradigm for eliciting video reasoning
within multimodal large language models (MLLMs). However, directly applying RL
training with the GRPO algorithm to video reasoning presents two primary
challenges: (i) a lack of temporal modeling for video reasoning, and (ii) the
scarcity of high-quality video-reasoning data. To address these issues, we
first propose the T-GRPO algorithm, which encourages models to utilize temporal
information in videos for reasoning. Additionally, instead of relying solely on
video data, we incorporate high-quality image-reasoning data into the training
process. We have constructed two datasets: Video-R1-COT-165k for SFT cold start
and Video-R1-260k for RL training, both comprising image and video data.
Experimental results demonstrate that Video-R1 achieves significant
improvements on video reasoning benchmarks such as VideoMMMU and VSI-Bench, as
well as on general video benchmarks including MVBench and TempCompass, etc.
Notably, Video-R1-7B attains a 35.8% accuracy on video spatial reasoning
benchmark VSI-bench, surpassing the commercial proprietary model GPT-4o. All
codes, models, data are released.Summary
AI-Generated Summary