F-GRPO: Lassen Sie nicht zu, dass Ihre Strategie das Offensichtliche erlernt und das Seltene vergisst

Zusammenfassung

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) basiert üblicherweise auf Gruppenstichproben, um Vorteile zu schätzen und Politikupdates zu stabilisieren. In der Praxis sind große Gruppengrößen aufgrund von Rechenlimits nicht realisierbar, was das Lernen in Richtung bereits wahrscheinlicher Trajektorien verzerrt. Kleinere Gruppen verpassen oft seltene korrekte Trajektorien, enthalten aber weiterhin gemischte Belohnungen, wodurch sich die Wahrscheinlichkeit auf gängige Lösungen konzentriert. Wir leiten die Wahrscheinlichkeit ab, dass Updates seltene korrekte Modi verpassen, als Funktion der Gruppengröße, zeigen nicht-monotones Verhalten und charakterisieren, wie Updates Masse innerhalb der korrekten Menge umverteilen. Dies zeigt, dass ungesampelte korrekte Masse schrumpfen kann, selbst wenn die gesamte korrekte Masse wächst. Motiviert durch diese Analyse schlagen wir einen schwierigkeitsabhängigen Vorteilsskalierungskoeffizienten vor, inspiriert von Focal Loss, der Updates bei Prompts mit hohem Erfolg geringer gewichtet. Die leichte Modifikation kann direkt in jeden gruppenrelativen RLVR-Algorithmus wie GRPO, DAPO und CISPO integriert werden. Bei Qwen2.5-7B über In-Domain- und Out-of-Domain-Benchmarks verbessert unsere Methode pass@256 von 64,1 auf 70,3 (GRPO), 69,3 auf 72,5 (DAPO) und 73,2 auf 76,8 (CISPO), während pass@1 erhalten bleibt oder verbessert wird, ohne die Gruppengröße oder Rechenkosten zu erhöhen.

English

Reinforcement Learning with Verifiable Rewards (RLVR) is commonly based on group sampling to estimate advantages and stabilize policy updates. In practice, large group sizes are not feasible due to computational limits, which biases learning toward trajectories that are already likely. Smaller groups often miss rare-correct trajectories while still containing mixed rewards, concentrating probability on common solutions. We derive the probability that updates miss rare-correct modes as a function of group size, showing non-monotonic behavior, and characterize how updates redistribute mass within the correct set, revealing that unsampled-correct mass can shrink even as total correct mass grows. Motivated by this analysis, we propose a difficulty-aware advantage scaling coefficient, inspired by Focal loss, that down-weights updates on high-success prompts. The lightweight modification can be directly integrated into any group-relative RLVR algorithm such as GRPO, DAPO, and CISPO. On Qwen2.5-7B across in-domain and out-of-domain benchmarks, our method improves pass@256 from 64.1 rightarrow 70.3 (GRPO), 69.3 rightarrow 72.5 (DAPO), and 73.2 rightarrow 76.8 (CISPO), while preserving or improving pass@1, without increasing group size or computational cost.

F-GRPO: Lassen Sie nicht zu, dass Ihre Strategie das Offensichtliche erlernt und das Seltene vergisst

F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare

Zusammenfassung

Support