R1-ShareVL: Incentivizando la capacidad de razonamiento de los modelos de lenguaje multimodal de gran escala mediante Share-GRPO
R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO
May 22, 2025
Autores: Huanjin Yao, Qixiang Yin, Jingyi Zhang, Min Yang, Yibo Wang, Wenhao Wu, Fei Su, Li Shen, Minghui Qiu, Dacheng Tao, Jiaxing Huang
cs.AI
Resumen
En este trabajo, buscamos incentivar la capacidad de razonamiento de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) mediante el aprendizaje por refuerzo (RL, por sus siglas en inglés) y desarrollar un enfoque efectivo que mitigue los problemas de recompensas dispersas y desvanecimiento de ventajas durante el RL. Para ello, proponemos Share-GRPO, un novedoso enfoque de RL que aborda estos problemas explorando y compartiendo trayectorias de razonamiento diversas en un espacio de preguntas ampliado. Específicamente, Share-GRPO primero expande el espacio de preguntas para una pregunta dada mediante técnicas de transformación de datos, y luego incentiva al MLLM a explorar de manera efectiva diversas trayectorias de razonamiento en el espacio de preguntas ampliado, compartiendo las trayectorias descubiertas entre las preguntas ampliadas durante el RL. Además, Share-GRPO también comparte información de recompensa durante el cálculo de ventajas, estimando jerárquicamente las ventajas de las soluciones entre y dentro de las variantes de preguntas, lo que permite una estimación más precisa de las ventajas relativas y mejora la estabilidad del entrenamiento de políticas. Evaluaciones exhaustivas en seis benchmarks de razonamiento ampliamente utilizados demuestran el rendimiento superior de nuestro método. El código estará disponible en https://github.com/HJYao00/R1-ShareVL.
English
In this work, we aim to incentivize the reasoning ability of Multimodal Large
Language Models (MLLMs) via reinforcement learning (RL) and develop an
effective approach that mitigates the sparse reward and advantage vanishing
issues during RL. To this end, we propose Share-GRPO, a novel RL approach that
tackle these issues by exploring and sharing diverse reasoning trajectories
over expanded question space. Specifically, Share-GRPO first expands the
question space for a given question via data transformation techniques, and
then encourages MLLM to effectively explore diverse reasoning trajectories over
the expanded question space and shares the discovered reasoning trajectories
across the expanded questions during RL. In addition, Share-GRPO also shares
reward information during advantage computation, which estimates solution
advantages hierarchically across and within question variants, allowing more
accurate estimation of relative advantages and improving the stability of
policy training. Extensive evaluations over six widely-used reasoning
benchmarks showcase the superior performance of our method. Code will be
available at https://github.com/HJYao00/R1-ShareVL.Summary
AI-Generated Summary