GRPO-MA: Geração de Múltiplas Respostas no GRPO para Treinamento Estável e Eficiente de Cadeia de Pensamento
GRPO-MA: Multi-Answer Generation in GRPO for Stable and Efficient Chain-of-Thought Training
September 29, 2025
Autores: Hongcheng Wang, Yinuo Huang, Sukai Wang, Guanghui Ren, Hao Dong
cs.AI
Resumo
Progressos recentes, como o DeepSeek-R1, demonstraram que o algoritmo GRPO, uma abordagem de Aprendizado por Reforço (RL), pode efetivamente treinar o raciocínio em Cadeia de Pensamentos (CoT) em Modelos de Linguagem de Grande Escala (LLMs) e Modelos de Linguagem e Visão (VLMs). Neste artigo, analisamos três desafios do GRPO: o acoplamento de gradientes entre pensamentos e respostas, os sinais de recompensa esparsa causados pela amostragem paralela limitada e a estimativa instável de vantagem. Para mitigar esses desafios, propomos o GRPO-MA, um método simples, mas teoricamente fundamentado, que aproveita a geração de múltiplas respostas a partir de cada processo de pensamento, permitindo uma otimização mais robusta e eficiente. Teoricamente, mostramos que a variância da vantagem do pensamento diminui à medida que o número de respostas por pensamento aumenta. Empiricamente, nossa análise de gradiente confirma esse efeito, mostrando que o GRPO-MA reduz os picos de gradiente em comparação com o GRPO. Experimentos em tarefas de matemática, código e diversas tarefas multimodais demonstram que o GRPO-MA melhora substancialmente o desempenho e a eficiência do treinamento. Nossos estudos de ablação revelam ainda que aumentar o número de respostas por pensamento melhora consistentemente o desempenho do modelo.
English
Recent progress, such as DeepSeek-R1, has shown that the GRPO algorithm, a
Reinforcement Learning (RL) approach, can effectively train Chain-of-Thought
(CoT) reasoning in Large Language Models (LLMs) and Vision-Language Models
(VLMs). In this paper, we analyze three challenges of GRPO: gradient coupling
between thoughts and answers, sparse reward signals caused by limited parallel
sampling, and unstable advantage estimation. To mitigate these challenges, we
propose GRPO-MA, a simple yet theoretically grounded method that leverages
multi-answer generation from each thought process, enabling more robust and
efficient optimization. Theoretically, we show that the variance of thought
advantage decreases as the number of answers per thought increases.
Empirically, our gradient analysis confirms this effect, showing that GRPO-MA
reduces gradient spikes compared to GRPO. Experiments on math, code, and
diverse multimodal tasks demonstrate that GRPO-MA substantially improves
performance and training efficiency. Our ablation studies further reveal that
increasing the number of answers per thought consistently enhances model
performance.