R1-ShareVL: Förderung der Fähigkeit zum logischen Denken multimodaler großer Sprachmodelle durch Share-GRPO

papers.abstract

In dieser Arbeit zielen wir darauf ab, die Fähigkeit zur logischen Schlussfolgerung von Multimodalen Großen Sprachmodellen (MLLMs) durch Reinforcement Learning (RL) zu fördern und einen effektiven Ansatz zu entwickeln, der die Probleme spärlicher Belohnungen und verschwindender Vorteile während des RLs mildert. Zu diesem Zweck schlagen wir Share-GRPO vor, einen neuartigen RL-Ansatz, der diese Probleme angeht, indem er vielfältige Schlussfolgerungspfade über einen erweiterten Fragenraum erkundet und teilt. Konkret erweitert Share-GRPO zunächst den Fragenraum für eine gegebene Frage durch Datenumwandlungstechniken und ermutigt dann das MLLM, effektiv vielfältige Schlussfolgerungspfade über den erweiterten Fragenraum zu erkunden und die entdeckten Schlussfolgerungspfade während des RLs über die erweiterten Fragen hinweg zu teilen. Darüber hinaus teilt Share-GRPO auch Belohnungsinformationen während der Vorteilsberechnung, die die Lösungsvorteile hierarchisch über und innerhalb von Fragenvarianten schätzt, was eine genauere Schätzung der relativen Vorteile ermöglicht und die Stabilität der Politikschulung verbessert. Umfangreiche Bewertungen über sechs weit verbreitete logische Benchmark-Tests zeigen die überlegene Leistung unserer Methode. Der Code wird unter https://github.com/HJYao00/R1-ShareVL verfügbar sein.

English

In this work, we aim to incentivize the reasoning ability of Multimodal Large Language Models (MLLMs) via reinforcement learning (RL) and develop an effective approach that mitigates the sparse reward and advantage vanishing issues during RL. To this end, we propose Share-GRPO, a novel RL approach that tackle these issues by exploring and sharing diverse reasoning trajectories over expanded question space. Specifically, Share-GRPO first expands the question space for a given question via data transformation techniques, and then encourages MLLM to effectively explore diverse reasoning trajectories over the expanded question space and shares the discovered reasoning trajectories across the expanded questions during RL. In addition, Share-GRPO also shares reward information during advantage computation, which estimates solution advantages hierarchically across and within question variants, allowing more accurate estimation of relative advantages and improving the stability of policy training. Extensive evaluations over six widely-used reasoning benchmarks showcase the superior performance of our method. Code will be available at https://github.com/HJYao00/R1-ShareVL.

R1-ShareVL: Förderung der Fähigkeit zum logischen Denken multimodaler großer Sprachmodelle durch Share-GRPO

R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO

papers.abstract

Support