ChatPaper.aiChatPaper

GRPO-MA: Генерация множественных ответов в GRPO для стабильного и эффективного обучения с использованием цепочки рассуждений

GRPO-MA: Multi-Answer Generation in GRPO for Stable and Efficient Chain-of-Thought Training

September 29, 2025
Авторы: Hongcheng Wang, Yinuo Huang, Sukai Wang, Guanghui Ren, Hao Dong
cs.AI

Аннотация

Недавние достижения, такие как DeepSeek-R1, показали, что алгоритм GRPO, основанный на обучении с подкреплением (Reinforcement Learning, RL), может эффективно обучать цепочку рассуждений (Chain-of-Thought, CoT) в крупных языковых моделях (Large Language Models, LLMs) и моделях, объединяющих визуальные и языковые данные (Vision-Language Models, VLMs). В данной статье мы анализируем три проблемы, связанные с GRPO: связь градиентов между рассуждениями и ответами, разреженность сигналов вознаграждения из-за ограниченного параллельного сэмплирования и нестабильность оценки преимущества. Для смягчения этих проблем мы предлагаем GRPO-MA — простой, но теоретически обоснованный метод, который использует генерацию нескольких ответов для каждого процесса рассуждения, что позволяет проводить более устойчивую и эффективную оптимизацию. Теоретически мы показываем, что дисперсия преимущества рассуждений уменьшается с увеличением числа ответов на каждое рассуждение. Эмпирически наш анализ градиентов подтверждает этот эффект, демонстрируя, что GRPO-MA снижает всплески градиентов по сравнению с GRPO. Эксперименты на задачах из области математики, программирования и разнообразных мультимодальных задач показывают, что GRPO-MA значительно улучшает производительность и эффективность обучения. Наши исследования по удалению компонентов также показывают, что увеличение числа ответов на каждое рассуждение последовательно повышает качество модели.
English
Recent progress, such as DeepSeek-R1, has shown that the GRPO algorithm, a Reinforcement Learning (RL) approach, can effectively train Chain-of-Thought (CoT) reasoning in Large Language Models (LLMs) and Vision-Language Models (VLMs). In this paper, we analyze three challenges of GRPO: gradient coupling between thoughts and answers, sparse reward signals caused by limited parallel sampling, and unstable advantage estimation. To mitigate these challenges, we propose GRPO-MA, a simple yet theoretically grounded method that leverages multi-answer generation from each thought process, enabling more robust and efficient optimization. Theoretically, we show that the variance of thought advantage decreases as the number of answers per thought increases. Empirically, our gradient analysis confirms this effect, showing that GRPO-MA reduces gradient spikes compared to GRPO. Experiments on math, code, and diverse multimodal tasks demonstrate that GRPO-MA substantially improves performance and training efficiency. Our ablation studies further reveal that increasing the number of answers per thought consistently enhances model performance.
PDF42September 30, 2025