ChatPaper.aiChatPaper

F-GRPO: 정책이 명백한 것을 학습하고 희귀한 것을 망각하지 않도록 하라

F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare

February 6, 2026
저자: Daniil Plyusov, Alexey Gorbatovski, Boris Shaposhnikov, Viacheslav Sinii, Alexey Malakhov, Daniil Gavrilov
cs.AI

초록

검증 가능한 보상을 활용한 강화 학습(RLVR)은 일반적으로 이점을 추정하고 정책 업데이트를 안정화하기 위해 그룹 샘플링에 기반합니다. 실제로는 계산적 한계로 인해 큰 그룹 크기를 사용하는 것이 불가능하며, 이는 학습이 이미 발생 확률이 높은 궤적에 편향되게 만듭니다. 작은 그룹은 혼합된 보상을 포함하면서도 희귀 정답 궤적을 놓치는 경우가 많아, 확률을 일반적인 해결책에 집중시키게 됩니다. 우리는 업데이트가 희귀 정답 모드를 놓칠 확률을 그룹 크기의 함수로 유도하여 비단조적 행동을 보여주고, 업데이트가 정답 집합 내에서 질량을 어떻게 재분배하는지 특성화합니다. 이를 통해 샘플링되지 않은 정답 질량이 전체 정답 질량이 증가함에도 줄어들 수 있음을 밝힙니다. 이러한 분석에 동기를 부여하여, 우리는 Focal loss에서 영감을 받아 높은 성공률을 보이는 프롬프트에 대한 업데이트 가중치를 낮추는 난이도 인식 이점 스케일링 계수를 제안합니다. 이 경량 수정 사항은 GRPO, DAPO, CISPO와 같은 그룹 상대적 RLVR 알고리즘에 직접 통합될 수 있습니다. Qwen2.5-7B 모델을 대상으로 인-도메인 및 아웃-오브-도메인 벤치마크에서 우리의 방법은 그룹 크기나 계산 비용을 증가시키지 않으면서 pass@1 성능을 유지하거나 개선하고, pass@256을 GRPO 기준 64.1 → 70.3, DAPO 기준 69.3 → 72.5, CISPO 기준 73.2 → 76.8로 향상시켰습니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) is commonly based on group sampling to estimate advantages and stabilize policy updates. In practice, large group sizes are not feasible due to computational limits, which biases learning toward trajectories that are already likely. Smaller groups often miss rare-correct trajectories while still containing mixed rewards, concentrating probability on common solutions. We derive the probability that updates miss rare-correct modes as a function of group size, showing non-monotonic behavior, and characterize how updates redistribute mass within the correct set, revealing that unsampled-correct mass can shrink even as total correct mass grows. Motivated by this analysis, we propose a difficulty-aware advantage scaling coefficient, inspired by Focal loss, that down-weights updates on high-success prompts. The lightweight modification can be directly integrated into any group-relative RLVR algorithm such as GRPO, DAPO, and CISPO. On Qwen2.5-7B across in-domain and out-of-domain benchmarks, our method improves pass@256 from 64.1 rightarrow 70.3 (GRPO), 69.3 rightarrow 72.5 (DAPO), and 73.2 rightarrow 76.8 (CISPO), while preserving or improving pass@1, without increasing group size or computational cost.
PDF702February 17, 2026