ChatPaper.aiChatPaper

R1-ShareVL: Стимулирование способности к рассуждению мультимодальных больших языковых моделей с помощью Share-GRPO

R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO

May 22, 2025
Авторы: Huanjin Yao, Qixiang Yin, Jingyi Zhang, Min Yang, Yibo Wang, Wenhao Wu, Fei Su, Li Shen, Minghui Qiu, Dacheng Tao, Jiaxing Huang
cs.AI

Аннотация

В данной работе мы стремимся стимулировать способность к рассуждению у мультимодальных больших языковых моделей (MLLMs) с использованием обучения с подкреплением (RL) и разработать эффективный подход, который смягчает проблемы разреженного вознаграждения и исчезновения преимуществ в процессе RL. Для этого мы предлагаем Share-GRPO — новый подход RL, который решает эти проблемы за счет исследования и обмена разнообразными траекториями рассуждений в расширенном пространстве вопросов. В частности, Share-GRPO сначала расширяет пространство вопросов для заданного вопроса с помощью техник преобразования данных, а затем побуждает MLLM активно исследовать разнообразные траектории рассуждений в расширенном пространстве вопросов и делиться обнаруженными траекториями между расширенными вопросами в процессе RL. Кроме того, Share-GRPO также делится информацией о вознаграждении при вычислении преимуществ, оценивая преимущества решений иерархически как между вариантами вопросов, так и внутри них, что позволяет более точно оценивать относительные преимущества и повышать стабильность обучения политики. Обширные оценки на шести широко используемых бенчмарках для рассуждений демонстрируют превосходную производительность нашего метода. Код будет доступен по адресу https://github.com/HJYao00/R1-ShareVL.
English
In this work, we aim to incentivize the reasoning ability of Multimodal Large Language Models (MLLMs) via reinforcement learning (RL) and develop an effective approach that mitigates the sparse reward and advantage vanishing issues during RL. To this end, we propose Share-GRPO, a novel RL approach that tackle these issues by exploring and sharing diverse reasoning trajectories over expanded question space. Specifically, Share-GRPO first expands the question space for a given question via data transformation techniques, and then encourages MLLM to effectively explore diverse reasoning trajectories over the expanded question space and shares the discovered reasoning trajectories across the expanded questions during RL. In addition, Share-GRPO also shares reward information during advantage computation, which estimates solution advantages hierarchically across and within question variants, allowing more accurate estimation of relative advantages and improving the stability of policy training. Extensive evaluations over six widely-used reasoning benchmarks showcase the superior performance of our method. Code will be available at https://github.com/HJYao00/R1-ShareVL.

Summary

AI-Generated Summary

PDF22May 28, 2025