ChatPaper.aiChatPaper

R1-ShareVL: Het stimuleren van het redeneervermogen van multimodale grote taalmodellen via Share-GRPO

R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO

May 22, 2025
Auteurs: Huanjin Yao, Qixiang Yin, Jingyi Zhang, Min Yang, Yibo Wang, Wenhao Wu, Fei Su, Li Shen, Minghui Qiu, Dacheng Tao, Jiaxing Huang
cs.AI

Samenvatting

In dit werk streven we ernaar om het redeneervermogen van Multimodale Grote Taalmodellen (MLLMs) te stimuleren via reinforcement learning (RL) en ontwikkelen we een effectieve aanpak die de problemen van schaarse beloningen en verdwijnende voordelen tijdens RL vermindert. Hiertoe stellen we Share-GRPO voor, een nieuwe RL-benadering die deze problemen aanpakt door diverse redeneertrajecten te verkennen en te delen over een uitgebreide vraagruimte. Specifiek breidt Share-GRPO eerst de vraagruimte voor een gegeven vraag uit via datatransformatietechnieken, en moedigt vervolgens MLLM aan om effectief diverse redeneertrajecten te verkennen over de uitgebreide vraagruimte en de ontdekte redeneertrajecten te delen over de uitgebreide vragen tijdens RL. Daarnaast deelt Share-GRPO ook beloningsinformatie tijdens de voordeelberekening, waarbij oplossingsvoordelen hiërarchisch worden geschat over en binnen vraagvarianten, wat een nauwkeurigere schatting van relatieve voordelen mogelijk maakt en de stabiliteit van beleidstraining verbetert. Uitgebreide evaluaties over zes veelgebruikte redeneerbenchmarks tonen de superieure prestaties van onze methode aan. Code zal beschikbaar zijn op https://github.com/HJYao00/R1-ShareVL.
English
In this work, we aim to incentivize the reasoning ability of Multimodal Large Language Models (MLLMs) via reinforcement learning (RL) and develop an effective approach that mitigates the sparse reward and advantage vanishing issues during RL. To this end, we propose Share-GRPO, a novel RL approach that tackle these issues by exploring and sharing diverse reasoning trajectories over expanded question space. Specifically, Share-GRPO first expands the question space for a given question via data transformation techniques, and then encourages MLLM to effectively explore diverse reasoning trajectories over the expanded question space and shares the discovered reasoning trajectories across the expanded questions during RL. In addition, Share-GRPO also shares reward information during advantage computation, which estimates solution advantages hierarchically across and within question variants, allowing more accurate estimation of relative advantages and improving the stability of policy training. Extensive evaluations over six widely-used reasoning benchmarks showcase the superior performance of our method. Code will be available at https://github.com/HJYao00/R1-ShareVL.
PDF22May 28, 2025