R1-VL: Apprendimento del Ragionamento con Modelli Linguistici Multimodali di Grande Scala tramite Ottimizzazione Relativa delle Politiche a Gruppi Passo-passo
R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization
March 17, 2025
Autori: Jingyi Zhang, Jiaxing Huang, Huanjin Yao, Shunyu Liu, Xikun Zhang, Shijian Lu, Dacheng Tao
cs.AI
Abstract
Gli studi recenti generalmente migliorano le capacità di ragionamento dei MLLM (Modelli Linguistici Multimodali) attraverso un fine-tuning supervisionato su dati di ragionamento a catena di pensiero di alta qualità, il che spesso porta i modelli a imitare semplicemente i percorsi di ragionamento corretti senza comprendere quali siano i percorsi di ragionamento errati. In questo lavoro, miriamo a potenziare la capacità di ragionamento dei MLLM oltre la semplice imitazione passiva dei percorsi di ragionamento positivi. A tal fine, progettiamo lo Step-wise Group Relative Policy Optimization (StepGRPO), un nuovo framework di apprendimento per rinforzo online che consente ai MLLM di migliorare autonomamente la capacità di ragionamento attraverso ricompense semplici, efficaci e dense a livello di passaggio. Nello specifico, StepGRPO introduce due nuove ricompense basate su regole per il ragionamento: la Step-wise Reasoning Accuracy Reward (StepRAR) e la Step-wise Reasoning Validity Reward (StepRVR). La StepRAR premia i percorsi di ragionamento che contengono i passaggi intermedi necessari attraverso una tecnica di corrispondenza soft dei passaggi chiave, mentre la StepRVR premia i percorsi di ragionamento che seguono un processo ben strutturato e logicamente coerente attraverso una strategia di valutazione della completezza e della logica del ragionamento. Con il proposto StepGRPO, introduciamo R1-VL, una serie di MLLM con capacità eccezionali nel ragionamento passo-passo. Esperimenti estesi su 8 benchmark dimostrano la superiorità dei nostri metodi.
English
Recent studies generally enhance MLLMs' reasoning capabilities via supervised
fine-tuning on high-quality chain-of-thought reasoning data, which often leads
models to merely imitate successful reasoning paths without understanding what
the wrong reasoning paths are. In this work, we aim to enhance the MLLMs'
reasoning ability beyond passively imitating positive reasoning paths. To this
end, we design Step-wise Group Relative Policy Optimization (StepGRPO), a new
online reinforcement learning framework that enables MLLMs to self-improve
reasoning ability via simple, effective and dense step-wise rewarding.
Specifically, StepGRPO introduces two novel rule-based reasoning rewards:
Step-wise Reasoning Accuracy Reward (StepRAR) and Step-wise Reasoning Validity
Reward (StepRVR). StepRAR rewards the reasoning paths that contain necessary
intermediate reasoning steps via a soft key-step matching technique, while
StepRAR rewards reasoning paths that follow a well-structured and logically
consistent reasoning process through a reasoning completeness and logic
evaluation strategy. With the proposed StepGRPO, we introduce R1-VL, a series
of MLLMs with outstanding capabilities in step-by-step reasoning. Extensive
experiments over 8 benchmarks demonstrate the superiority of our methods.