ChatPaper.aiChatPaper

R1-ShareVL: Incentivando a Capacidade de Raciocínio de Modelos de Linguagem Multimodais de Grande Escala via Share-GRPO

R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO

May 22, 2025
Autores: Huanjin Yao, Qixiang Yin, Jingyi Zhang, Min Yang, Yibo Wang, Wenhao Wu, Fei Su, Li Shen, Minghui Qiu, Dacheng Tao, Jiaxing Huang
cs.AI

Resumo

Neste trabalho, buscamos incentivar a capacidade de raciocínio dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) por meio de aprendizado por reforço (RL) e desenvolver uma abordagem eficaz que mitigue os problemas de recompensa esparsa e desaparecimento de vantagem durante o RL. Para isso, propomos o Share-GRPO, uma nova abordagem de RL que aborda essas questões explorando e compartilhando trajetórias de raciocínio diversas em um espaço de questões expandido. Especificamente, o Share-GRPO primeiro expande o espaço de questões para uma determinada pergunta por meio de técnicas de transformação de dados e, em seguida, incentiva o MLLM a explorar efetivamente trajetórias de raciocínio diversas no espaço de questões expandido e compartilha as trajetórias de raciocínio descobertas entre as questões expandidas durante o RL. Além disso, o Share-GRPO também compartilha informações de recompensa durante o cálculo da vantagem, estimando as vantagens das soluções de forma hierárquica entre e dentro das variantes de questões, permitindo uma estimativa mais precisa das vantagens relativas e melhorando a estabilidade do treinamento da política. Avaliações extensas em seis benchmarks de raciocínio amplamente utilizados demonstram o desempenho superior do nosso método. O código estará disponível em https://github.com/HJYao00/R1-ShareVL.
English
In this work, we aim to incentivize the reasoning ability of Multimodal Large Language Models (MLLMs) via reinforcement learning (RL) and develop an effective approach that mitigates the sparse reward and advantage vanishing issues during RL. To this end, we propose Share-GRPO, a novel RL approach that tackle these issues by exploring and sharing diverse reasoning trajectories over expanded question space. Specifically, Share-GRPO first expands the question space for a given question via data transformation techniques, and then encourages MLLM to effectively explore diverse reasoning trajectories over the expanded question space and shares the discovered reasoning trajectories across the expanded questions during RL. In addition, Share-GRPO also shares reward information during advantage computation, which estimates solution advantages hierarchically across and within question variants, allowing more accurate estimation of relative advantages and improving the stability of policy training. Extensive evaluations over six widely-used reasoning benchmarks showcase the superior performance of our method. Code will be available at https://github.com/HJYao00/R1-ShareVL.
PDF22December 4, 2025