ChatPaper.aiChatPaper

Video-R1: Усиление видеорассуждений в мультимодальных языковых моделях

Video-R1: Reinforcing Video Reasoning in MLLMs

March 27, 2025
Авторы: Kaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue
cs.AI

Аннотация

Вдохновленные успехом DeepSeek-R1 в раскрытии способностей к рассуждению с помощью обучения с подкреплением (RL) на основе правил, мы представляем Video-R1 как первую попытку систематического исследования парадигмы R1 для раскрытия способностей к видео-рассуждению в мультимодальных больших языковых моделях (MLLMs). Однако прямое применение RL-обучения с алгоритмом GRPO для видео-рассуждений сталкивается с двумя основными проблемами: (i) отсутствие временного моделирования для видео-рассуждений и (ii) недостаток высококачественных данных для видео-рассуждений. Для решения этих проблем мы сначала предлагаем алгоритм T-GRPO, который побуждает модели использовать временную информацию в видео для рассуждений. Кроме того, вместо полного reliance на видео-данные, мы включаем в процесс обучения высококачественные данные для рассуждений на основе изображений. Мы создали два набора данных: Video-R1-COT-165k для холодного старта SFT и Video-R1-260k для RL-обучения, оба включающие данные изображений и видео. Экспериментальные результаты показывают, что Video-R1 достигает значительных улучшений на бенчмарках для видео-рассуждений, таких как VideoMMMU и VSI-Bench, а также на общих видео-бенчмарках, включая MVBench и TempCompass и др. Примечательно, что Video-R1-7B достигает точности 35,8% на бенчмарке для пространственных видео-рассуждений VSI-bench, превосходя коммерческую проприетарную модель GPT-4o. Все коды, модели и данные опубликованы.
English
Inspired by DeepSeek-R1's success in eliciting reasoning abilities through rule-based reinforcement learning (RL), we introduce Video-R1 as the first attempt to systematically explore the R1 paradigm for eliciting video reasoning within multimodal large language models (MLLMs). However, directly applying RL training with the GRPO algorithm to video reasoning presents two primary challenges: (i) a lack of temporal modeling for video reasoning, and (ii) the scarcity of high-quality video-reasoning data. To address these issues, we first propose the T-GRPO algorithm, which encourages models to utilize temporal information in videos for reasoning. Additionally, instead of relying solely on video data, we incorporate high-quality image-reasoning data into the training process. We have constructed two datasets: Video-R1-COT-165k for SFT cold start and Video-R1-260k for RL training, both comprising image and video data. Experimental results demonstrate that Video-R1 achieves significant improvements on video reasoning benchmarks such as VideoMMMU and VSI-Bench, as well as on general video benchmarks including MVBench and TempCompass, etc. Notably, Video-R1-7B attains a 35.8% accuracy on video spatial reasoning benchmark VSI-bench, surpassing the commercial proprietary model GPT-4o. All codes, models, data are released.

Summary

AI-Generated Summary

PDF786March 28, 2025