F-GRPO : Ne laissez pas votre politique apprendre l'évident et oublier le rare

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) repose généralement sur l'échantillonnage par groupe pour estimer les avantages et stabiliser les mises à jour de la politique. En pratique, de grandes tailles de groupe ne sont pas réalisables en raison des limites de calcul, ce qui biaise l'apprentissage vers les trajectoires déjà probables. Les petits groupes manquent souvent les trajectoires correctes rares tout en contenant des récompenses mixtes, concentrant la probabilité sur les solutions communes. Nous dérivons la probabilité que les mises à jour manquent les modes corrects rares en fonction de la taille du groupe, montrant un comportement non monotone, et caractérisons comment les mises à jour redistribuent la masse au sein de l'ensemble correct, révélant que la masse correcte non échantillonnée peut diminuer même lorsque la masse correcte totale augmente. Motivés par cette analyse, nous proposons un coefficient d'échelle d'avantage adapté à la difficulté, inspiré par la perte focale (Focal loss), qui pondère à la baisse les mises à jour sur les prompts à haut succès. Cette modification légère peut être intégrée directement dans tout algorithme RLVR relatif au groupe tel que GRPO, DAPO et CISPO. Sur Qwen2.5-7B à travers des benchmarks en domaine et hors domaine, notre méthode améliore le pass@256 de 64,1 → 70,3 (GRPO), 69,3 → 72,5 (DAPO) et 73,2 → 76,8 (CISPO), tout en préservant ou en améliorant le pass@1, sans augmenter la taille du groupe ou le coût computationnel.

English

Reinforcement Learning with Verifiable Rewards (RLVR) is commonly based on group sampling to estimate advantages and stabilize policy updates. In practice, large group sizes are not feasible due to computational limits, which biases learning toward trajectories that are already likely. Smaller groups often miss rare-correct trajectories while still containing mixed rewards, concentrating probability on common solutions. We derive the probability that updates miss rare-correct modes as a function of group size, showing non-monotonic behavior, and characterize how updates redistribute mass within the correct set, revealing that unsampled-correct mass can shrink even as total correct mass grows. Motivated by this analysis, we propose a difficulty-aware advantage scaling coefficient, inspired by Focal loss, that down-weights updates on high-success prompts. The lightweight modification can be directly integrated into any group-relative RLVR algorithm such as GRPO, DAPO, and CISPO. On Qwen2.5-7B across in-domain and out-of-domain benchmarks, our method improves pass@256 from 64.1 rightarrow 70.3 (GRPO), 69.3 rightarrow 72.5 (DAPO), and 73.2 rightarrow 76.8 (CISPO), while preserving or improving pass@1, without increasing group size or computational cost.

F-GRPO : Ne laissez pas votre politique apprendre l'évident et oublier le rare

F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare

Résumé

Support