ChatPaper.aiChatPaper

R1-ShareVL : Stimuler les capacités de raisonnement des modèles de langage multimodaux de grande taille via Share-GRPO

R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO

May 22, 2025
Auteurs: Huanjin Yao, Qixiang Yin, Jingyi Zhang, Min Yang, Yibo Wang, Wenhao Wu, Fei Su, Li Shen, Minghui Qiu, Dacheng Tao, Jiaxing Huang
cs.AI

Résumé

Dans ce travail, nous visons à stimuler la capacité de raisonnement des Modèles de Langage Multimodaux de Grande Taille (MLLMs) via l'apprentissage par renforcement (RL) et à développer une approche efficace qui atténue les problèmes de récompense éparse et de disparition des avantages pendant le RL. À cette fin, nous proposons Share-GRPO, une nouvelle approche de RL qui aborde ces problèmes en explorant et en partageant des trajectoires de raisonnement diversifiées sur un espace de questions élargi. Plus précisément, Share-GRPO commence par élargir l'espace des questions pour une question donnée grâce à des techniques de transformation de données, puis encourage le MLLM à explorer efficacement des trajectoires de raisonnement diversifiées sur cet espace de questions élargi et à partager les trajectoires de raisonnement découvertes entre les questions élargies pendant le RL. De plus, Share-GRPO partage également des informations de récompense lors du calcul des avantages, en estimant hiérarchiquement les avantages des solutions entre et au sein des variantes de questions, permettant une estimation plus précise des avantages relatifs et améliorant la stabilité de l'entraînement des politiques. Des évaluations approfondies sur six benchmarks de raisonnement largement utilisés démontrent la performance supérieure de notre méthode. Le code sera disponible à l'adresse https://github.com/HJYao00/R1-ShareVL.
English
In this work, we aim to incentivize the reasoning ability of Multimodal Large Language Models (MLLMs) via reinforcement learning (RL) and develop an effective approach that mitigates the sparse reward and advantage vanishing issues during RL. To this end, we propose Share-GRPO, a novel RL approach that tackle these issues by exploring and sharing diverse reasoning trajectories over expanded question space. Specifically, Share-GRPO first expands the question space for a given question via data transformation techniques, and then encourages MLLM to effectively explore diverse reasoning trajectories over the expanded question space and shares the discovered reasoning trajectories across the expanded questions during RL. In addition, Share-GRPO also shares reward information during advantage computation, which estimates solution advantages hierarchically across and within question variants, allowing more accurate estimation of relative advantages and improving the stability of policy training. Extensive evaluations over six widely-used reasoning benchmarks showcase the superior performance of our method. Code will be available at https://github.com/HJYao00/R1-ShareVL.

Summary

AI-Generated Summary

PDF22May 28, 2025