GRPO-MA: Mehrfachantwortgenerierung in GRPO für stabiles und effizientes Chain-of-Thought-Training
GRPO-MA: Multi-Answer Generation in GRPO for Stable and Efficient Chain-of-Thought Training
September 29, 2025
papers.authors: Hongcheng Wang, Yinuo Huang, Sukai Wang, Guanghui Ren, Hao Dong
cs.AI
papers.abstract
Jüngste Fortschritte, wie beispielsweise DeepSeek-R1, haben gezeigt, dass der GRPO-Algorithmus, ein Ansatz des Reinforcement Learning (RL), effektiv das Chain-of-Thought (CoT)-Denken in Large Language Models (LLMs) und Vision-Language Models (VLMs) trainieren kann. In diesem Artikel analysieren wir drei Herausforderungen von GRPO: die Gradientenkopplung zwischen Gedanken und Antworten, spärliche Belohnungssignale aufgrund begrenzter paralleler Stichproben und instabile Vorteilsschätzungen. Um diese Herausforderungen zu bewältigen, schlagen wir GRPO-MA vor, eine einfache, aber theoretisch fundierte Methode, die die Generierung mehrerer Antworten aus jedem Denkprozess nutzt und so eine robustere und effizientere Optimierung ermöglicht. Theoretisch zeigen wir, dass die Varianz des Gedankenvorteils abnimmt, wenn die Anzahl der Antworten pro Gedanke zunimmt. Empirisch bestätigt unsere Gradientenanalyse diesen Effekt, indem sie zeigt, dass GRPO-MA im Vergleich zu GRPO Gradientenspitzen reduziert. Experimente in den Bereichen Mathematik, Programmierung und diversen multimodalen Aufgaben demonstrieren, dass GRPO-MA die Leistung und Trainings effizienz erheblich verbessert. Unsere Ablationsstudien zeigen weiterhin, dass eine Erhöhung der Anzahl der Antworten pro Gedanke die Modellleistung kontinuierlich steigert.
English
Recent progress, such as DeepSeek-R1, has shown that the GRPO algorithm, a
Reinforcement Learning (RL) approach, can effectively train Chain-of-Thought
(CoT) reasoning in Large Language Models (LLMs) and Vision-Language Models
(VLMs). In this paper, we analyze three challenges of GRPO: gradient coupling
between thoughts and answers, sparse reward signals caused by limited parallel
sampling, and unstable advantage estimation. To mitigate these challenges, we
propose GRPO-MA, a simple yet theoretically grounded method that leverages
multi-answer generation from each thought process, enabling more robust and
efficient optimization. Theoretically, we show that the variance of thought
advantage decreases as the number of answers per thought increases.
Empirically, our gradient analysis confirms this effect, showing that GRPO-MA
reduces gradient spikes compared to GRPO. Experiments on math, code, and
diverse multimodal tasks demonstrate that GRPO-MA substantially improves
performance and training efficiency. Our ablation studies further reveal that
increasing the number of answers per thought consistently enhances model
performance.