ChatPaper.aiChatPaper

Video-R1: Reforçando o Raciocínio em Vídeo em MLLMs

Video-R1: Reinforcing Video Reasoning in MLLMs

March 27, 2025
Autores: Kaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue
cs.AI

Resumo

Inspirados pelo sucesso do DeepSeek-R1 em eliciar habilidades de raciocínio por meio de aprendizado por reforço baseado em regras (RL), introduzimos o Video-R1 como a primeira tentativa de explorar sistematicamente o paradigma R1 para eliciar raciocínio em vídeo dentro de modelos de linguagem multimodal de grande escala (MLLMs). No entanto, a aplicação direta do treinamento de RL com o algoritmo GRPO para raciocínio em vídeo apresenta dois desafios principais: (i) a falta de modelagem temporal para o raciocínio em vídeo, e (ii) a escassez de dados de alta qualidade para raciocínio em vídeo. Para abordar essas questões, primeiro propomos o algoritmo T-GRPO, que incentiva os modelos a utilizar informações temporais em vídeos para raciocínio. Além disso, em vez de depender exclusivamente de dados de vídeo, incorporamos dados de alta qualidade para raciocínio em imagens no processo de treinamento. Construímos dois conjuntos de dados: Video-R1-COT-165k para o início a frio de SFT e Video-R1-260k para o treinamento de RL, ambos contendo dados de imagem e vídeo. Os resultados experimentais demonstram que o Video-R1 alcança melhorias significativas em benchmarks de raciocínio em vídeo, como VideoMMMU e VSI-Bench, bem como em benchmarks gerais de vídeo, incluindo MVBench e TempCompass, entre outros. Notavelmente, o Video-R1-7B atinge uma precisão de 35,8% no benchmark de raciocínio espacial em vídeo VSI-bench, superando o modelo proprietário comercial GPT-4o. Todos os códigos, modelos e dados são disponibilizados.
English
Inspired by DeepSeek-R1's success in eliciting reasoning abilities through rule-based reinforcement learning (RL), we introduce Video-R1 as the first attempt to systematically explore the R1 paradigm for eliciting video reasoning within multimodal large language models (MLLMs). However, directly applying RL training with the GRPO algorithm to video reasoning presents two primary challenges: (i) a lack of temporal modeling for video reasoning, and (ii) the scarcity of high-quality video-reasoning data. To address these issues, we first propose the T-GRPO algorithm, which encourages models to utilize temporal information in videos for reasoning. Additionally, instead of relying solely on video data, we incorporate high-quality image-reasoning data into the training process. We have constructed two datasets: Video-R1-COT-165k for SFT cold start and Video-R1-260k for RL training, both comprising image and video data. Experimental results demonstrate that Video-R1 achieves significant improvements on video reasoning benchmarks such as VideoMMMU and VSI-Bench, as well as on general video benchmarks including MVBench and TempCompass, etc. Notably, Video-R1-7B attains a 35.8% accuracy on video spatial reasoning benchmark VSI-bench, surpassing the commercial proprietary model GPT-4o. All codes, models, data are released.

Summary

AI-Generated Summary

PDF786March 28, 2025