F-GRPO: Non Permettere alla Tua Politica di Apprendere l'Ovvio e Dimenticare il Raro

Abstract

L’Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) si basa comunemente sul campionamento di gruppo per stimare i vantaggi e stabilizzare gli aggiornamenti della politica. In pratica, dimensioni di gruppo elevate non sono fattibili a causa dei limiti computazionali, il che distorce l'apprendimento verso traiettorie già probabili. Gruppi più piccoli spesso perdono traiettorie corrette rare pur contenendo ancora ricompense miste, concentrando la probabilità su soluzioni comuni. Deriviamo la probabilità che gli aggiornamenti perdano modi corretti rari in funzione della dimensione del gruppo, mostrando un comportamento non monotono, e caratterizziamo come gli aggiornamenti ridistribuiscono la massa all'interno dell'insieme corretto, rivelando che la massa corretta non campionata può ridursi anche mentre la massa corretta totale cresce. Motivati da questa analisi, proponiamo un coefficiente di scalatura del vantaggio consapevole della difficoltà, ispirato alla Focal loss, che riduce il peso degli aggiornamenti sugli prompt ad alto successo. Questa modifica leggera può essere integrata direttamente in qualsiasi algoritmo RLVR relativo al gruppo come GRPO, DAPO e CISPO. Su Qwen2.5-7B su benchmark in-dominio e out-of-dominio, il nostro metodo migliora il pass@256 da 64.1 → 70.3 (GRPO), 69.3 → 72.5 (DAPO) e 73.2 → 76.8 (CISPO), preservando o migliorando al contempo il pass@1, senza aumentare la dimensione del gruppo o il costo computazionale.

English

Reinforcement Learning with Verifiable Rewards (RLVR) is commonly based on group sampling to estimate advantages and stabilize policy updates. In practice, large group sizes are not feasible due to computational limits, which biases learning toward trajectories that are already likely. Smaller groups often miss rare-correct trajectories while still containing mixed rewards, concentrating probability on common solutions. We derive the probability that updates miss rare-correct modes as a function of group size, showing non-monotonic behavior, and characterize how updates redistribute mass within the correct set, revealing that unsampled-correct mass can shrink even as total correct mass grows. Motivated by this analysis, we propose a difficulty-aware advantage scaling coefficient, inspired by Focal loss, that down-weights updates on high-success prompts. The lightweight modification can be directly integrated into any group-relative RLVR algorithm such as GRPO, DAPO, and CISPO. On Qwen2.5-7B across in-domain and out-of-domain benchmarks, our method improves pass@256 from 64.1 rightarrow 70.3 (GRPO), 69.3 rightarrow 72.5 (DAPO), and 73.2 rightarrow 76.8 (CISPO), while preserving or improving pass@1, without increasing group size or computational cost.

F-GRPO: Non Permettere alla Tua Politica di Apprendere l'Ovvio e Dimenticare il Raro

F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare

Abstract

Support