ChatPaper.aiChatPaper

R1-ShareVL: Incentivizando la capacidad de razonamiento de los modelos de lenguaje multimodal de gran escala mediante Share-GRPO

R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO

May 22, 2025
Autores: Huanjin Yao, Qixiang Yin, Jingyi Zhang, Min Yang, Yibo Wang, Wenhao Wu, Fei Su, Li Shen, Minghui Qiu, Dacheng Tao, Jiaxing Huang
cs.AI

Resumen

En este trabajo, buscamos incentivar la capacidad de razonamiento de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) mediante el aprendizaje por refuerzo (RL, por sus siglas en inglés) y desarrollar un enfoque efectivo que mitigue los problemas de recompensas dispersas y desvanecimiento de ventajas durante el RL. Para ello, proponemos Share-GRPO, un novedoso enfoque de RL que aborda estos problemas explorando y compartiendo trayectorias de razonamiento diversas en un espacio de preguntas ampliado. Específicamente, Share-GRPO primero expande el espacio de preguntas para una pregunta dada mediante técnicas de transformación de datos, y luego incentiva al MLLM a explorar de manera efectiva diversas trayectorias de razonamiento en el espacio de preguntas ampliado, compartiendo las trayectorias descubiertas entre las preguntas ampliadas durante el RL. Además, Share-GRPO también comparte información de recompensa durante el cálculo de ventajas, estimando jerárquicamente las ventajas de las soluciones entre y dentro de las variantes de preguntas, lo que permite una estimación más precisa de las ventajas relativas y mejora la estabilidad del entrenamiento de políticas. Evaluaciones exhaustivas en seis benchmarks de razonamiento ampliamente utilizados demuestran el rendimiento superior de nuestro método. El código estará disponible en https://github.com/HJYao00/R1-ShareVL.
English
In this work, we aim to incentivize the reasoning ability of Multimodal Large Language Models (MLLMs) via reinforcement learning (RL) and develop an effective approach that mitigates the sparse reward and advantage vanishing issues during RL. To this end, we propose Share-GRPO, a novel RL approach that tackle these issues by exploring and sharing diverse reasoning trajectories over expanded question space. Specifically, Share-GRPO first expands the question space for a given question via data transformation techniques, and then encourages MLLM to effectively explore diverse reasoning trajectories over the expanded question space and shares the discovered reasoning trajectories across the expanded questions during RL. In addition, Share-GRPO also shares reward information during advantage computation, which estimates solution advantages hierarchically across and within question variants, allowing more accurate estimation of relative advantages and improving the stability of policy training. Extensive evaluations over six widely-used reasoning benchmarks showcase the superior performance of our method. Code will be available at https://github.com/HJYao00/R1-ShareVL.

Summary

AI-Generated Summary

PDF22May 28, 2025