R1-ShareVL: Förderung der Fähigkeit zum logischen Denken multimodaler großer Sprachmodelle durch Share-GRPO
R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO
May 22, 2025
Autoren: Huanjin Yao, Qixiang Yin, Jingyi Zhang, Min Yang, Yibo Wang, Wenhao Wu, Fei Su, Li Shen, Minghui Qiu, Dacheng Tao, Jiaxing Huang
cs.AI
Zusammenfassung
In dieser Arbeit zielen wir darauf ab, die Fähigkeit zur logischen Schlussfolgerung von Multimodalen Großen Sprachmodellen (MLLMs) durch Reinforcement Learning (RL) zu fördern und einen effektiven Ansatz zu entwickeln, der die Probleme spärlicher Belohnungen und verschwindender Vorteile während des RLs mildert. Zu diesem Zweck schlagen wir Share-GRPO vor, einen neuartigen RL-Ansatz, der diese Probleme angeht, indem er vielfältige Schlussfolgerungspfade über einen erweiterten Fragenraum erkundet und teilt. Konkret erweitert Share-GRPO zunächst den Fragenraum für eine gegebene Frage durch Datenumwandlungstechniken und ermutigt dann das MLLM, effektiv vielfältige Schlussfolgerungspfade über den erweiterten Fragenraum zu erkunden und die entdeckten Schlussfolgerungspfade während des RLs über die erweiterten Fragen hinweg zu teilen. Darüber hinaus teilt Share-GRPO auch Belohnungsinformationen während der Vorteilsberechnung, die die Lösungsvorteile hierarchisch über und innerhalb von Fragenvarianten schätzt, was eine genauere Schätzung der relativen Vorteile ermöglicht und die Stabilität der Politikschulung verbessert. Umfangreiche Bewertungen über sechs weit verbreitete logische Benchmark-Tests zeigen die überlegene Leistung unserer Methode. Der Code wird unter https://github.com/HJYao00/R1-ShareVL verfügbar sein.
English
In this work, we aim to incentivize the reasoning ability of Multimodal Large
Language Models (MLLMs) via reinforcement learning (RL) and develop an
effective approach that mitigates the sparse reward and advantage vanishing
issues during RL. To this end, we propose Share-GRPO, a novel RL approach that
tackle these issues by exploring and sharing diverse reasoning trajectories
over expanded question space. Specifically, Share-GRPO first expands the
question space for a given question via data transformation techniques, and
then encourages MLLM to effectively explore diverse reasoning trajectories over
the expanded question space and shares the discovered reasoning trajectories
across the expanded questions during RL. In addition, Share-GRPO also shares
reward information during advantage computation, which estimates solution
advantages hierarchically across and within question variants, allowing more
accurate estimation of relative advantages and improving the stability of
policy training. Extensive evaluations over six widely-used reasoning
benchmarks showcase the superior performance of our method. Code will be
available at https://github.com/HJYao00/R1-ShareVL.Summary
AI-Generated Summary