ChatPaper.aiChatPaper

Vision-R1: Incentivizzare le Capacità di Ragionamento nei Modelli Linguistici Multimodali di Grande Scala

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

March 9, 2025
Autori: Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Yao Hu, Shaohui Lin
cs.AI

Abstract

DeepSeek-R1-Zero ha dimostrato con successo l'emergere di capacità di ragionamento nei LLM esclusivamente attraverso il Reinforcement Learning (RL). Ispirati da questa svolta, esploriamo come l'RL possa essere utilizzato per potenziare la capacità di ragionamento degli MLLM. Tuttavia, l'addestramento diretto con RL fatica ad attivare capacità di ragionamento complesse come il porre domande e la riflessione negli MLLM, a causa della mancanza di dati sostanziali e di alta qualità sul ragionamento multimodale. Per affrontare questo problema, proponiamo l'MLLM di ragionamento, Vision-R1, per migliorare la capacità di ragionamento multimodale. Nello specifico, costruiamo prima un dataset multimodale CoT di alta qualità senza annotazioni umane, sfruttando un MLLM esistente e DeepSeek-R1 attraverso il bridging di modalità e il filtraggio dei dati, ottenendo un dataset multimodale CoT di 200K, il dataset Vision-R1-cold. Questo serve come dati di inizializzazione a freddo per Vision-R1. Per mitigare le sfide di ottimizzazione causate dal sovrapensiero dopo l'avvio a freddo, proponiamo la strategia di Progressive Thinking Suppression Training (PTST) e impieghiamo il Group Relative Policy Optimization (GRPO) con la funzione di ricompensa basata sui risultati formattati in modo rigoroso, per affinare gradualmente la capacità del modello di apprendere processi di ragionamento corretti e complessi su un dataset matematico multimodale di 10K. Esperimenti completi mostrano che il nostro modello raggiunge un miglioramento medio di circa il 6% su vari benchmark di ragionamento matematico multimodale. Vision-R1-7B raggiunge un'accuratezza del 73,5% sul benchmark MathVista ampiamente utilizzato, che è solo lo 0,4% inferiore rispetto al modello di ragionamento leader, OpenAI O1. I dataset e il codice saranno rilasciati su: https://github.com/Osilly/Vision-R1.
English
DeepSeek-R1-Zero has successfully demonstrated the emergence of reasoning capabilities in LLMs purely through Reinforcement Learning (RL). Inspired by this breakthrough, we explore how RL can be utilized to enhance the reasoning capability of MLLMs. However, direct training with RL struggles to activate complex reasoning capabilities such as questioning and reflection in MLLMs, due to the absence of substantial high-quality multimodal reasoning data. To address this issue, we propose the reasoning MLLM, Vision-R1, to improve multimodal reasoning capability. Specifically, we first construct a high-quality multimodal CoT dataset without human annotations by leveraging an existing MLLM and DeepSeek-R1 through modality bridging and data filtering to obtain a 200K multimodal CoT dataset, Vision-R1-cold dataset. It serves as cold-start initialization data for Vision-R1. To mitigate the optimization challenges caused by overthinking after cold start, we propose Progressive Thinking Suppression Training (PTST) strategy and employ Group Relative Policy Optimization (GRPO) with the hard formatting result reward function to gradually refine the model's ability to learn correct and complex reasoning processes on a 10K multimodal math dataset. Comprehensive experiments show our model achieves an average improvement of sim6% across various multimodal math reasoning benchmarks. Vision-R1-7B achieves a 73.5% accuracy on the widely used MathVista benchmark, which is only 0.4% lower than the leading reasoning model, OpenAI O1. The datasets and code will be released in: https://github.com/Osilly/Vision-R1 .

Summary

AI-Generated Summary

PDF292March 11, 2025