Vision-R1: Incentivizzare le Capacità di Ragionamento nei Modelli Linguistici Multimodali di Grande Scala
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
March 9, 2025
Autori: Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Yao Hu, Shaohui Lin
cs.AI
Abstract
DeepSeek-R1-Zero ha dimostrato con successo l'emergere di capacità di ragionamento nei LLM esclusivamente attraverso il Reinforcement Learning (RL). Ispirati da questa svolta, esploriamo come l'RL possa essere utilizzato per potenziare la capacità di ragionamento degli MLLM. Tuttavia, l'addestramento diretto con RL fatica ad attivare capacità di ragionamento complesse come il porre domande e la riflessione negli MLLM, a causa della mancanza di dati sostanziali e di alta qualità sul ragionamento multimodale. Per affrontare questo problema, proponiamo l'MLLM di ragionamento, Vision-R1, per migliorare la capacità di ragionamento multimodale. Nello specifico, costruiamo prima un dataset multimodale CoT di alta qualità senza annotazioni umane, sfruttando un MLLM esistente e DeepSeek-R1 attraverso il bridging di modalità e il filtraggio dei dati, ottenendo un dataset multimodale CoT di 200K, il dataset Vision-R1-cold. Questo serve come dati di inizializzazione a freddo per Vision-R1. Per mitigare le sfide di ottimizzazione causate dal sovrapensiero dopo l'avvio a freddo, proponiamo la strategia di Progressive Thinking Suppression Training (PTST) e impieghiamo il Group Relative Policy Optimization (GRPO) con la funzione di ricompensa basata sui risultati formattati in modo rigoroso, per affinare gradualmente la capacità del modello di apprendere processi di ragionamento corretti e complessi su un dataset matematico multimodale di 10K. Esperimenti completi mostrano che il nostro modello raggiunge un miglioramento medio di circa il 6% su vari benchmark di ragionamento matematico multimodale. Vision-R1-7B raggiunge un'accuratezza del 73,5% sul benchmark MathVista ampiamente utilizzato, che è solo lo 0,4% inferiore rispetto al modello di ragionamento leader, OpenAI O1. I dataset e il codice saranno rilasciati su: https://github.com/Osilly/Vision-R1.
English
DeepSeek-R1-Zero has successfully demonstrated the emergence of reasoning
capabilities in LLMs purely through Reinforcement Learning (RL). Inspired by
this breakthrough, we explore how RL can be utilized to enhance the reasoning
capability of MLLMs. However, direct training with RL struggles to activate
complex reasoning capabilities such as questioning and reflection in MLLMs, due
to the absence of substantial high-quality multimodal reasoning data. To
address this issue, we propose the reasoning MLLM, Vision-R1, to improve
multimodal reasoning capability. Specifically, we first construct a
high-quality multimodal CoT dataset without human annotations by leveraging an
existing MLLM and DeepSeek-R1 through modality bridging and data filtering to
obtain a 200K multimodal CoT dataset, Vision-R1-cold dataset. It serves as
cold-start initialization data for Vision-R1. To mitigate the optimization
challenges caused by overthinking after cold start, we propose Progressive
Thinking Suppression Training (PTST) strategy and employ Group Relative Policy
Optimization (GRPO) with the hard formatting result reward function to
gradually refine the model's ability to learn correct and complex reasoning
processes on a 10K multimodal math dataset. Comprehensive experiments show our
model achieves an average improvement of sim6% across various multimodal
math reasoning benchmarks. Vision-R1-7B achieves a 73.5% accuracy on the widely
used MathVista benchmark, which is only 0.4% lower than the leading reasoning
model, OpenAI O1. The datasets and code will be released in:
https://github.com/Osilly/Vision-R1 .Summary
AI-Generated Summary