F-GRPO: Не позволяйте вашей политике изучать очевидное и забывать редкое

Аннотация

Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) обычно основано на групповой выборке для оценки преимуществ и стабилизации обновлений политики. На практике большие размеры групп неосуществимы из-за вычислительных ограничений, что смещает обучение в сторону траекторий, уже имеющих высокую вероятность. Меньшие группы часто пропускают редкие корректные траектории, при этом содержа смешанные вознаграждения, что концентрирует вероятность на распространенных решениях. Мы выводим вероятность того, что обновления пропускают редкие корректные режимы, как функцию от размера группы, демонстрируя немонотонное поведение, и характеризуем, как обновления перераспределяют массу внутри корректного множества, показывая, что невыборочная корректная масса может уменьшаться даже при росте общей корректной массы. Мотивированные этим анализом, мы предлагаем коэффициент масштабирования преимущества, учитывающий сложность, по аналогии с Focal loss, который понижает вес обновлений для промптов с высоким успехом. Это легковесное изменение может быть напрямую интегрировано в любой групповой RLVR-алгоритм, такой как GRPO, DAPO и CISPO. На модели Qwen2.5-7B, на внутридоменных и внедоменных бенчмарках, наш метод улучшает pass@256 с 64.1 → 70.3 (GRPO), 69.3 → 72.5 (DAPO) и 73.2 → 76.8 (CISPO), сохраняя или улучшая pass@1, без увеличения размера группы или вычислительных затрат.

English

Reinforcement Learning with Verifiable Rewards (RLVR) is commonly based on group sampling to estimate advantages and stabilize policy updates. In practice, large group sizes are not feasible due to computational limits, which biases learning toward trajectories that are already likely. Smaller groups often miss rare-correct trajectories while still containing mixed rewards, concentrating probability on common solutions. We derive the probability that updates miss rare-correct modes as a function of group size, showing non-monotonic behavior, and characterize how updates redistribute mass within the correct set, revealing that unsampled-correct mass can shrink even as total correct mass grows. Motivated by this analysis, we propose a difficulty-aware advantage scaling coefficient, inspired by Focal loss, that down-weights updates on high-success prompts. The lightweight modification can be directly integrated into any group-relative RLVR algorithm such as GRPO, DAPO, and CISPO. On Qwen2.5-7B across in-domain and out-of-domain benchmarks, our method improves pass@256 from 64.1 rightarrow 70.3 (GRPO), 69.3 rightarrow 72.5 (DAPO), and 73.2 rightarrow 76.8 (CISPO), while preserving or improving pass@1, without increasing group size or computational cost.

F-GRPO: Не позволяйте вашей политике изучать очевидное и забывать редкое

F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare

Аннотация

Support