ChatPaper.aiChatPaper

GRPO-MA: Generazione Multi-Risposta in GRPO per un Addestramento Stabile ed Efficiente del Ragionamento a Catena

GRPO-MA: Multi-Answer Generation in GRPO for Stable and Efficient Chain-of-Thought Training

September 29, 2025
Autori: Hongcheng Wang, Yinuo Huang, Sukai Wang, Guanghui Ren, Hao Dong
cs.AI

Abstract

I recenti progressi, come DeepSeek-R1, hanno dimostrato che l'algoritmo GRPO, un approccio di Reinforcement Learning (RL), può addestrare efficacemente il ragionamento a catena di pensieri (Chain-of-Thought, CoT) nei Large Language Models (LLMs) e nei Vision-Language Models (VLMs). In questo articolo, analizziamo tre sfide di GRPO: l'accoppiamento dei gradienti tra pensieri e risposte, i segnali di ricompensa sparsi causati dal campionamento parallelo limitato e la stima instabile del vantaggio. Per mitigare queste sfide, proponiamo GRPO-MA, un metodo semplice ma teoricamente fondato che sfrutta la generazione di più risposte da ciascun processo di pensiero, consentendo un'ottimizzazione più robusta ed efficiente. Teoricamente, dimostriamo che la varianza del vantaggio del pensiero diminuisce all'aumentare del numero di risposte per pensiero. Empiricamente, la nostra analisi dei gradienti conferma questo effetto, mostrando che GRPO-MA riduce i picchi di gradiente rispetto a GRPO. Esperimenti su compiti di matematica, codice e compiti multimodali eterogenei dimostrano che GRPO-MA migliora sostanzialmente le prestazioni e l'efficienza dell'addestramento. I nostri studi di ablazione rivelano inoltre che aumentare il numero di risposte per pensiero migliora costantemente le prestazioni del modello.
English
Recent progress, such as DeepSeek-R1, has shown that the GRPO algorithm, a Reinforcement Learning (RL) approach, can effectively train Chain-of-Thought (CoT) reasoning in Large Language Models (LLMs) and Vision-Language Models (VLMs). In this paper, we analyze three challenges of GRPO: gradient coupling between thoughts and answers, sparse reward signals caused by limited parallel sampling, and unstable advantage estimation. To mitigate these challenges, we propose GRPO-MA, a simple yet theoretically grounded method that leverages multi-answer generation from each thought process, enabling more robust and efficient optimization. Theoretically, we show that the variance of thought advantage decreases as the number of answers per thought increases. Empirically, our gradient analysis confirms this effect, showing that GRPO-MA reduces gradient spikes compared to GRPO. Experiments on math, code, and diverse multimodal tasks demonstrate that GRPO-MA substantially improves performance and training efficiency. Our ablation studies further reveal that increasing the number of answers per thought consistently enhances model performance.
PDF92September 30, 2025