ChatPaper.aiChatPaper

Video-R1 : Renforcement du raisonnement vidéo dans les MLLMs

Video-R1: Reinforcing Video Reasoning in MLLMs

March 27, 2025
Auteurs: Kaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue
cs.AI

Résumé

Inspirés par le succès de DeepSeek-R1 dans l'élicitation des capacités de raisonnement grâce à l'apprentissage par renforcement (RL) basé sur des règles, nous introduisons Video-R1 comme première tentative d'exploration systématique du paradigme R1 pour l'élicitation du raisonnement vidéo au sein des modèles de langage multimodaux de grande taille (MLLMs). Cependant, l'application directe de l'entraînement RL avec l'algorithme GRPO au raisonnement vidéo présente deux défis majeurs : (i) un manque de modélisation temporelle pour le raisonnement vidéo, et (ii) la rareté de données de haute qualité pour le raisonnement vidéo. Pour résoudre ces problèmes, nous proposons d'abord l'algorithme T-GRPO, qui encourage les modèles à utiliser les informations temporelles des vidéos pour le raisonnement. De plus, au lieu de s'appuyer uniquement sur des données vidéo, nous intégrons des données de raisonnement sur images de haute qualité dans le processus d'entraînement. Nous avons construit deux ensembles de données : Video-R1-COT-165k pour le démarrage à froid SFT et Video-R1-260k pour l'entraînement RL, tous deux comprenant des données d'images et de vidéos. Les résultats expérimentaux montrent que Video-R1 obtient des améliorations significatives sur les benchmarks de raisonnement vidéo tels que VideoMMMU et VSI-Bench, ainsi que sur des benchmarks vidéo généraux incluant MVBench et TempCompass, etc. Notamment, Video-R1-7B atteint une précision de 35,8 % sur le benchmark de raisonnement spatial vidéo VSI-bench, surpassant le modèle propriétaire commercial GPT-4o. Tous les codes, modèles et données sont publiés.
English
Inspired by DeepSeek-R1's success in eliciting reasoning abilities through rule-based reinforcement learning (RL), we introduce Video-R1 as the first attempt to systematically explore the R1 paradigm for eliciting video reasoning within multimodal large language models (MLLMs). However, directly applying RL training with the GRPO algorithm to video reasoning presents two primary challenges: (i) a lack of temporal modeling for video reasoning, and (ii) the scarcity of high-quality video-reasoning data. To address these issues, we first propose the T-GRPO algorithm, which encourages models to utilize temporal information in videos for reasoning. Additionally, instead of relying solely on video data, we incorporate high-quality image-reasoning data into the training process. We have constructed two datasets: Video-R1-COT-165k for SFT cold start and Video-R1-260k for RL training, both comprising image and video data. Experimental results demonstrate that Video-R1 achieves significant improvements on video reasoning benchmarks such as VideoMMMU and VSI-Bench, as well as on general video benchmarks including MVBench and TempCompass, etc. Notably, Video-R1-7B attains a 35.8% accuracy on video spatial reasoning benchmark VSI-bench, surpassing the commercial proprietary model GPT-4o. All codes, models, data are released.

Summary

AI-Generated Summary

PDF786March 28, 2025