R1-ShareVL: Incentivizzare le Capacità di Ragionamento dei Modelli Linguistici Multimodali di Grande Scala tramite Share-GRPO
R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO
May 22, 2025
Autori: Huanjin Yao, Qixiang Yin, Jingyi Zhang, Min Yang, Yibo Wang, Wenhao Wu, Fei Su, Li Shen, Minghui Qiu, Dacheng Tao, Jiaxing Huang
cs.AI
Abstract
In questo lavoro, miriamo a incentivare la capacità di ragionamento dei Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) attraverso l'apprendimento per rinforzo (RL) e sviluppare un approccio efficace che mitighi i problemi di ricompensa sparsa e scomparsa del vantaggio durante l'RL. A tal fine, proponiamo Share-GRPO, un nuovo approccio RL che affronta questi problemi esplorando e condividendo traiettorie di ragionamento diverse su uno spazio di domande ampliato. Nello specifico, Share-GRPO espande prima lo spazio delle domande per una data domanda utilizzando tecniche di trasformazione dei dati, e poi incoraggia l'MLLM a esplorare efficacemente diverse traiettorie di ragionamento sullo spazio di domande ampliato e a condividere le traiettorie di ragionamento scoperte tra le domande ampliate durante l'RL. Inoltre, Share-GRPO condivide anche le informazioni sulle ricompense durante il calcolo del vantaggio, stimando i vantaggi delle soluzioni in modo gerarchico tra e all'interno delle varianti delle domande, consentendo una stima più accurata dei vantaggi relativi e migliorando la stabilità dell'addestramento delle politiche. Valutazioni estensive su sei benchmark di ragionamento ampiamente utilizzati dimostrano la performance superiore del nostro metodo. Il codice sarà disponibile all'indirizzo https://github.com/HJYao00/R1-ShareVL.
English
In this work, we aim to incentivize the reasoning ability of Multimodal Large
Language Models (MLLMs) via reinforcement learning (RL) and develop an
effective approach that mitigates the sparse reward and advantage vanishing
issues during RL. To this end, we propose Share-GRPO, a novel RL approach that
tackle these issues by exploring and sharing diverse reasoning trajectories
over expanded question space. Specifically, Share-GRPO first expands the
question space for a given question via data transformation techniques, and
then encourages MLLM to effectively explore diverse reasoning trajectories over
the expanded question space and shares the discovered reasoning trajectories
across the expanded questions during RL. In addition, Share-GRPO also shares
reward information during advantage computation, which estimates solution
advantages hierarchically across and within question variants, allowing more
accurate estimation of relative advantages and improving the stability of
policy training. Extensive evaluations over six widely-used reasoning
benchmarks showcase the superior performance of our method. Code will be
available at https://github.com/HJYao00/R1-ShareVL.