Una Perspectiva de Gradiente sobre la Estabilidad de RLVR y la Optimización de Políticas con Ventaja del Ganador

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR) mejora el razonamiento de los modelos de lenguaje, pero la optimización al estilo GRPO sigue siendo propensa al colapso. Analizamos esta inestabilidad mediante la dinámica de gradientes a nivel de token, derivando una taxonomía que predice cómo las actualizaciones afectan las probabilidades del siguiente token y la entropía. La taxonomía muestra que la estabilidad depende conjuntamente del signo de la ventaja y de la distribución de tokens bajo la política actual. Motivados por este hallazgo, proponemos Winner Advantage Policy Optimization (WAPO), un objetivo simple de gradiente de política recortado en línea que actualiza solo en completaciones con ventaja positiva. En benchmarks de razonamiento matemático y QA de múltiples saltos, WAPO mejora la estabilidad del entrenamiento e iguala o supera las líneas base en múltiples familias de modelos. El código completo se puede encontrar en https://github.com/layer6ai-labs/wapo.

English

Reinforcement learning with verifiable rewards (RLVR) improves language-model reasoning, but GRPO-style optimization remains prone to collapse. We analyse this instability through token-level gradient dynamics, deriving a taxonomy that predicts how updates affect next-token probabilities and entropy. The taxonomy shows that stability depends jointly on the advantage sign and token distribution under the current policy. Motivated by this finding, we propose Winner Advantage Policy Optimization (WAPO), a simple online clipped policy-gradient objective that updates only on positive-advantage completions. Across mathematical reasoning and multi-hop QA benchmarks, WAPO improves training stability and matches or outperforms baselines across multiple model families. Full code can be found at https://github.com/layer6ai-labs/wapo.