ChatPaper.aiChatPaper

GRPO-MA : Génération de réponses multiples dans GRPO pour un entraînement stable et efficace de la chaîne de raisonnement

GRPO-MA: Multi-Answer Generation in GRPO for Stable and Efficient Chain-of-Thought Training

September 29, 2025
papers.authors: Hongcheng Wang, Yinuo Huang, Sukai Wang, Guanghui Ren, Hao Dong
cs.AI

papers.abstract

Les progrès récents, tels que DeepSeek-R1, ont montré que l'algorithme GRPO, une approche d'apprentissage par renforcement (Reinforcement Learning, RL), peut efficacement entraîner le raisonnement en chaîne de pensées (Chain-of-Thought, CoT) dans les grands modèles de langage (Large Language Models, LLMs) et les modèles vision-langage (Vision-Language Models, VLMs). Dans cet article, nous analysons trois défis liés à GRPO : le couplage des gradients entre les pensées et les réponses, les signaux de récompense épars causés par un échantillonnage parallèle limité, et l'estimation instable de l'avantage. Pour atténuer ces défis, nous proposons GRPO-MA, une méthode simple mais théoriquement fondée qui exploite la génération de multiples réponses à partir de chaque processus de pensée, permettant une optimisation plus robuste et efficace. Théoriquement, nous montrons que la variance de l'avantage des pensées diminue à mesure que le nombre de réponses par pensée augmente. Empiriquement, notre analyse des gradients confirme cet effet, montrant que GRPO-MA réduit les pics de gradient par rapport à GRPO. Les expériences sur des tâches mathématiques, de programmation et multimodales variées démontrent que GRPO-MA améliore considérablement les performances et l'efficacité de l'entraînement. Nos études d'ablation révèlent en outre qu'augmenter le nombre de réponses par pensée améliore systématiquement les performances du modèle.
English
Recent progress, such as DeepSeek-R1, has shown that the GRPO algorithm, a Reinforcement Learning (RL) approach, can effectively train Chain-of-Thought (CoT) reasoning in Large Language Models (LLMs) and Vision-Language Models (VLMs). In this paper, we analyze three challenges of GRPO: gradient coupling between thoughts and answers, sparse reward signals caused by limited parallel sampling, and unstable advantage estimation. To mitigate these challenges, we propose GRPO-MA, a simple yet theoretically grounded method that leverages multi-answer generation from each thought process, enabling more robust and efficient optimization. Theoretically, we show that the variance of thought advantage decreases as the number of answers per thought increases. Empirically, our gradient analysis confirms this effect, showing that GRPO-MA reduces gradient spikes compared to GRPO. Experiments on math, code, and diverse multimodal tasks demonstrate that GRPO-MA substantially improves performance and training efficiency. Our ablation studies further reveal that increasing the number of answers per thought consistently enhances model performance.
PDF42September 30, 2025