R1-VL: Apprendimento del Ragionamento con Modelli Linguistici Multimodali di Grande Scala tramite Ottimizzazione Relativa delle Politiche a Gruppi Passo-passo

Abstract

Gli studi recenti generalmente migliorano le capacità di ragionamento dei MLLM (Modelli Linguistici Multimodali) attraverso un fine-tuning supervisionato su dati di ragionamento a catena di pensiero di alta qualità, il che spesso porta i modelli a imitare semplicemente i percorsi di ragionamento corretti senza comprendere quali siano i percorsi di ragionamento errati. In questo lavoro, miriamo a potenziare la capacità di ragionamento dei MLLM oltre la semplice imitazione passiva dei percorsi di ragionamento positivi. A tal fine, progettiamo lo Step-wise Group Relative Policy Optimization (StepGRPO), un nuovo framework di apprendimento per rinforzo online che consente ai MLLM di migliorare autonomamente la capacità di ragionamento attraverso ricompense semplici, efficaci e dense a livello di passaggio. Nello specifico, StepGRPO introduce due nuove ricompense basate su regole per il ragionamento: la Step-wise Reasoning Accuracy Reward (StepRAR) e la Step-wise Reasoning Validity Reward (StepRVR). La StepRAR premia i percorsi di ragionamento che contengono i passaggi intermedi necessari attraverso una tecnica di corrispondenza soft dei passaggi chiave, mentre la StepRVR premia i percorsi di ragionamento che seguono un processo ben strutturato e logicamente coerente attraverso una strategia di valutazione della completezza e della logica del ragionamento. Con il proposto StepGRPO, introduciamo R1-VL, una serie di MLLM con capacità eccezionali nel ragionamento passo-passo. Esperimenti estesi su 8 benchmark dimostrano la superiorità dei nostri metodi.

English

Recent studies generally enhance MLLMs' reasoning capabilities via supervised fine-tuning on high-quality chain-of-thought reasoning data, which often leads models to merely imitate successful reasoning paths without understanding what the wrong reasoning paths are. In this work, we aim to enhance the MLLMs' reasoning ability beyond passively imitating positive reasoning paths. To this end, we design Step-wise Group Relative Policy Optimization (StepGRPO), a new online reinforcement learning framework that enables MLLMs to self-improve reasoning ability via simple, effective and dense step-wise rewarding. Specifically, StepGRPO introduces two novel rule-based reasoning rewards: Step-wise Reasoning Accuracy Reward (StepRAR) and Step-wise Reasoning Validity Reward (StepRVR). StepRAR rewards the reasoning paths that contain necessary intermediate reasoning steps via a soft key-step matching technique, while StepRAR rewards reasoning paths that follow a well-structured and logically consistent reasoning process through a reasoning completeness and logic evaluation strategy. With the proposed StepGRPO, we introduce R1-VL, a series of MLLMs with outstanding capabilities in step-by-step reasoning. Extensive experiments over 8 benchmarks demonstrate the superiority of our methods.

R1-VL: Apprendimento del Ragionamento con Modelli Linguistici Multimodali di Grande Scala tramite Ottimizzazione Relativa delle Politiche a Gruppi Passo-passo

R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization

Abstract

Support