GRPO-MA: Generación de Múltiples Respuestas en GRPO para un Entrenamiento Estable y Eficiente de la Cadena de Razonamiento

Resumen

Los avances recientes, como DeepSeek-R1, han demostrado que el algoritmo GRPO, un enfoque de Aprendizaje por Refuerzo (RL, por sus siglas en inglés), puede entrenar eficazmente el razonamiento en Cadena de Pensamiento (CoT, por sus siglas en inglés) en Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) y Modelos de Lenguaje-Visión (VLMs, por sus siglas en inglés). En este artículo, analizamos tres desafíos del GRPO: el acoplamiento de gradientes entre pensamientos y respuestas, las señales de recompensa dispersas causadas por un muestreo paralelo limitado y la estimación inestable de ventajas. Para mitigar estos desafíos, proponemos GRPO-MA, un método simple pero teóricamente fundamentado que aprovecha la generación de múltiples respuestas a partir de cada proceso de pensamiento, permitiendo una optimización más robusta y eficiente. Teóricamente, demostramos que la varianza de la ventaja del pensamiento disminuye a medida que aumenta el número de respuestas por pensamiento. Empíricamente, nuestro análisis de gradientes confirma este efecto, mostrando que GRPO-MA reduce los picos de gradiente en comparación con GRPO. Los experimentos en tareas de matemáticas, programación y diversas tareas multimodales demuestran que GRPO-MA mejora sustancialmente el rendimiento y la eficiencia del entrenamiento. Nuestros estudios de ablación revelan además que aumentar el número de respuestas por pensamiento mejora consistentemente el rendimiento del modelo.

English

Recent progress, such as DeepSeek-R1, has shown that the GRPO algorithm, a Reinforcement Learning (RL) approach, can effectively train Chain-of-Thought (CoT) reasoning in Large Language Models (LLMs) and Vision-Language Models (VLMs). In this paper, we analyze three challenges of GRPO: gradient coupling between thoughts and answers, sparse reward signals caused by limited parallel sampling, and unstable advantage estimation. To mitigate these challenges, we propose GRPO-MA, a simple yet theoretically grounded method that leverages multi-answer generation from each thought process, enabling more robust and efficient optimization. Theoretically, we show that the variance of thought advantage decreases as the number of answers per thought increases. Empirically, our gradient analysis confirms this effect, showing that GRPO-MA reduces gradient spikes compared to GRPO. Experiments on math, code, and diverse multimodal tasks demonstrate that GRPO-MA substantially improves performance and training efficiency. Our ablation studies further reveal that increasing the number of answers per thought consistently enhances model performance.

GRPO-MA: Generación de Múltiples Respuestas en GRPO para un Entrenamiento Estable y Eficiente de la Cadena de Razonamiento

GRPO-MA: Multi-Answer Generation in GRPO for Stable and Efficient Chain-of-Thought Training

Resumen

Support