F-GRPO: No permitas que tu política aprenda lo obvio y olvide lo raro

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) se basa comúnmente en el muestreo por grupos para estimar ventajas y estabilizar las actualizaciones de la política. En la práctica, los tamaños de grupo grandes no son factibles debido a limitaciones computacionales, lo que sesga el aprendizaje hacia trayectorias que ya son probables. Los grupos más pequeños a menudo pierden trayectorias correctas raras mientras aún contienen recompensas mixtas, concentrando la probabilidad en soluciones comunes. Derivamos la probabilidad de que las actualizaciones pasen por alto modos correctos raros en función del tamaño del grupo, mostrando un comportamiento no monótono, y caracterizamos cómo las actualizaciones redistribuyen la masa dentro del conjunto correcto, revelando que la masa correcta no muestreada puede reducirse incluso cuando la masa correcta total crece. Motivados por este análisis, proponemos un coeficiente de escalado de ventajas consciente de la dificultad, inspirado en la pérdida focal, que reduce el peso de las actualizaciones en instrucciones de alto éxito. Esta modificación ligera puede integrarse directamente en cualquier algoritmo RLVR relativo a grupos como GRPO, DAPO y CISPO. En Qwen2.5-7B, a través de benchmarks dentro y fuera del dominio, nuestro método mejora pass@256 de 64.1 → 70.3 (GRPO), 69.3 → 72.5 (DAPO) y 73.2 → 76.8 (CISPO), mientras preserva o mejora pass@1, sin aumentar el tamaño del grupo ni el coste computacional.

English

Reinforcement Learning with Verifiable Rewards (RLVR) is commonly based on group sampling to estimate advantages and stabilize policy updates. In practice, large group sizes are not feasible due to computational limits, which biases learning toward trajectories that are already likely. Smaller groups often miss rare-correct trajectories while still containing mixed rewards, concentrating probability on common solutions. We derive the probability that updates miss rare-correct modes as a function of group size, showing non-monotonic behavior, and characterize how updates redistribute mass within the correct set, revealing that unsampled-correct mass can shrink even as total correct mass grows. Motivated by this analysis, we propose a difficulty-aware advantage scaling coefficient, inspired by Focal loss, that down-weights updates on high-success prompts. The lightweight modification can be directly integrated into any group-relative RLVR algorithm such as GRPO, DAPO, and CISPO. On Qwen2.5-7B across in-domain and out-of-domain benchmarks, our method improves pass@256 from 64.1 rightarrow 70.3 (GRPO), 69.3 rightarrow 72.5 (DAPO), and 73.2 rightarrow 76.8 (CISPO), while preserving or improving pass@1, without increasing group size or computational cost.