GRPO-MA: Generación de Múltiples Respuestas en GRPO para un Entrenamiento Estable y Eficiente de la Cadena de Razonamiento
GRPO-MA: Multi-Answer Generation in GRPO for Stable and Efficient Chain-of-Thought Training
September 29, 2025
Autores: Hongcheng Wang, Yinuo Huang, Sukai Wang, Guanghui Ren, Hao Dong
cs.AI
Resumen
Los avances recientes, como DeepSeek-R1, han demostrado que el algoritmo GRPO, un enfoque de Aprendizaje por Refuerzo (RL, por sus siglas en inglés), puede entrenar eficazmente el razonamiento en Cadena de Pensamiento (CoT, por sus siglas en inglés) en Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) y Modelos de Lenguaje-Visión (VLMs, por sus siglas en inglés). En este artículo, analizamos tres desafíos del GRPO: el acoplamiento de gradientes entre pensamientos y respuestas, las señales de recompensa dispersas causadas por un muestreo paralelo limitado y la estimación inestable de ventajas. Para mitigar estos desafíos, proponemos GRPO-MA, un método simple pero teóricamente fundamentado que aprovecha la generación de múltiples respuestas a partir de cada proceso de pensamiento, permitiendo una optimización más robusta y eficiente. Teóricamente, demostramos que la varianza de la ventaja del pensamiento disminuye a medida que aumenta el número de respuestas por pensamiento. Empíricamente, nuestro análisis de gradientes confirma este efecto, mostrando que GRPO-MA reduce los picos de gradiente en comparación con GRPO. Los experimentos en tareas de matemáticas, programación y diversas tareas multimodales demuestran que GRPO-MA mejora sustancialmente el rendimiento y la eficiencia del entrenamiento. Nuestros estudios de ablación revelan además que aumentar el número de respuestas por pensamiento mejora consistentemente el rendimiento del modelo.
English
Recent progress, such as DeepSeek-R1, has shown that the GRPO algorithm, a
Reinforcement Learning (RL) approach, can effectively train Chain-of-Thought
(CoT) reasoning in Large Language Models (LLMs) and Vision-Language Models
(VLMs). In this paper, we analyze three challenges of GRPO: gradient coupling
between thoughts and answers, sparse reward signals caused by limited parallel
sampling, and unstable advantage estimation. To mitigate these challenges, we
propose GRPO-MA, a simple yet theoretically grounded method that leverages
multi-answer generation from each thought process, enabling more robust and
efficient optimization. Theoretically, we show that the variance of thought
advantage decreases as the number of answers per thought increases.
Empirically, our gradient analysis confirms this effect, showing that GRPO-MA
reduces gradient spikes compared to GRPO. Experiments on math, code, and
diverse multimodal tasks demonstrate that GRPO-MA substantially improves
performance and training efficiency. Our ablation studies further reveal that
increasing the number of answers per thought consistently enhances model
performance.