Video-R1: Refuerzo del Razonamiento en Vídeo para MLLMs
Video-R1: Reinforcing Video Reasoning in MLLMs
March 27, 2025
Autores: Kaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue
cs.AI
Resumen
Inspirados por el éxito de DeepSeek-R1 en la elicitación de habilidades de razonamiento mediante el aprendizaje por refuerzo (RL) basado en reglas, presentamos Video-R1 como el primer intento de explorar sistemáticamente el paradigma R1 para la elicitación del razonamiento en videos dentro de modelos de lenguaje multimodal de gran escala (MLLMs). Sin embargo, la aplicación directa del entrenamiento RL con el algoritmo GRPO al razonamiento en videos presenta dos desafíos principales: (i) la falta de modelado temporal para el razonamiento en videos, y (ii) la escasez de datos de alta calidad para el razonamiento en videos. Para abordar estos problemas, primero proponemos el algoritmo T-GRPO, que fomenta que los modelos utilicen información temporal en los videos para el razonamiento. Además, en lugar de depender únicamente de datos de video, incorporamos datos de alta calidad para el razonamiento en imágenes en el proceso de entrenamiento. Hemos construido dos conjuntos de datos: Video-R1-COT-165k para el arranque en frío SFT y Video-R1-260k para el entrenamiento RL, ambos compuestos por datos de imágenes y videos. Los resultados experimentales demuestran que Video-R1 logra mejoras significativas en benchmarks de razonamiento en videos como VideoMMMU y VSI-Bench, así como en benchmarks generales de video como MVBench y TempCompass, entre otros. Destacablemente, Video-R1-7B alcanza un 35.8% de precisión en el benchmark de razonamiento espacial en videos VSI-Bench, superando al modelo comercial propietario GPT-4o. Todos los códigos, modelos y datos han sido liberados.
English
Inspired by DeepSeek-R1's success in eliciting reasoning abilities through
rule-based reinforcement learning (RL), we introduce Video-R1 as the first
attempt to systematically explore the R1 paradigm for eliciting video reasoning
within multimodal large language models (MLLMs). However, directly applying RL
training with the GRPO algorithm to video reasoning presents two primary
challenges: (i) a lack of temporal modeling for video reasoning, and (ii) the
scarcity of high-quality video-reasoning data. To address these issues, we
first propose the T-GRPO algorithm, which encourages models to utilize temporal
information in videos for reasoning. Additionally, instead of relying solely on
video data, we incorporate high-quality image-reasoning data into the training
process. We have constructed two datasets: Video-R1-COT-165k for SFT cold start
and Video-R1-260k for RL training, both comprising image and video data.
Experimental results demonstrate that Video-R1 achieves significant
improvements on video reasoning benchmarks such as VideoMMMU and VSI-Bench, as
well as on general video benchmarks including MVBench and TempCompass, etc.
Notably, Video-R1-7B attains a 35.8% accuracy on video spatial reasoning
benchmark VSI-bench, surpassing the commercial proprietary model GPT-4o. All
codes, models, data are released.Summary
AI-Generated Summary