GRPO-MA: Multi-Antwoordgeneratie in GRPO voor stabiele en efficiënte Chain-of-Thought-training
GRPO-MA: Multi-Answer Generation in GRPO for Stable and Efficient Chain-of-Thought Training
September 29, 2025
Auteurs: Hongcheng Wang, Yinuo Huang, Sukai Wang, Guanghui Ren, Hao Dong
cs.AI
Samenvatting
Recente vooruitgang, zoals DeepSeek-R1, heeft aangetoond dat het GRPO-algoritme, een Reinforcement Learning (RL)-benadering, effectief Chain-of-Thought (CoT)-redenering kan trainen in Large Language Models (LLMs) en Vision-Language Models (VLMs). In dit artikel analyseren we drie uitdagingen van GRPO: gradientkoppeling tussen gedachten en antwoorden, schaarse beloningssignalen veroorzaakt door beperkte parallelle sampling, en onstabiele voorsprongschatting. Om deze uitdagingen te verminderen, stellen we GRPO-MA voor, een eenvoudige maar theoretisch onderbouwde methode die gebruikmaakt van multi-antwoordgeneratie vanuit elk denkproces, waardoor robuustere en efficiëntere optimalisatie mogelijk wordt. Theoretisch laten we zien dat de variantie van de gedachtenvoorsprong afneemt naarmate het aantal antwoorden per gedachte toeneemt. Empirisch bevestigt onze gradientanalyse dit effect, waarbij wordt aangetoond dat GRPO-MA gradientpieken vermindert in vergelijking met GRPO. Experimenten op het gebied van wiskunde, code en diverse multimodale taken tonen aan dat GRPO-MA de prestaties en trainings efficiëntie aanzienlijk verbetert. Onze ablatiestudies onthullen verder dat het verhogen van het aantal antwoorden per gedachte consistent de modelprestaties verbetert.
English
Recent progress, such as DeepSeek-R1, has shown that the GRPO algorithm, a
Reinforcement Learning (RL) approach, can effectively train Chain-of-Thought
(CoT) reasoning in Large Language Models (LLMs) and Vision-Language Models
(VLMs). In this paper, we analyze three challenges of GRPO: gradient coupling
between thoughts and answers, sparse reward signals caused by limited parallel
sampling, and unstable advantage estimation. To mitigate these challenges, we
propose GRPO-MA, a simple yet theoretically grounded method that leverages
multi-answer generation from each thought process, enabling more robust and
efficient optimization. Theoretically, we show that the variance of thought
advantage decreases as the number of answers per thought increases.
Empirically, our gradient analysis confirms this effect, showing that GRPO-MA
reduces gradient spikes compared to GRPO. Experiments on math, code, and
diverse multimodal tasks demonstrate that GRPO-MA substantially improves
performance and training efficiency. Our ablation studies further reveal that
increasing the number of answers per thought consistently enhances model
performance.