Een gradiëntperspectief op RLVR-stabiliteit en Beleidsoptimalisatie met Winnaarsvoordeel

Samenvatting

Reinforcement learning met verifieerbare beloningen (RLVR) verbetert het redeneervermogen van taalmodellen, maar GRPO-achtige optimalisatie blijft gevoelig voor ineenstorting. We analyseren deze instabiliteit aan de hand van gradiëntdynamiek op token-niveau en leiden een taxonomie af die voorspelt hoe updates de kansen op het volgende token en de entropie beïnvloeden. De taxonomie toont aan dat stabiliteit gezamenlijk afhangt van het teken van het voordeel en de tokenverdeling onder het huidige beleid. Op basis van deze bevinding stellen we Winner Advantage Policy Optimization (WAPO) voor, een eenvoudige online geknipte beleidsgradiëntdoelstelling die alleen werkt op voltooiingen met een positief voordeel. In benchmarks voor wiskundig redeneren en multi-hop QA verbetert WAPO de trainingsstabiliteit en evenaart of overtreft het de basislijnen voor meerdere modelfamilies. Volledige code is beschikbaar op https://github.com/layer6ai-labs/wapo.

English

Reinforcement learning with verifiable rewards (RLVR) improves language-model reasoning, but GRPO-style optimization remains prone to collapse. We analyse this instability through token-level gradient dynamics, deriving a taxonomy that predicts how updates affect next-token probabilities and entropy. The taxonomy shows that stability depends jointly on the advantage sign and token distribution under the current policy. Motivated by this finding, we propose Winner Advantage Policy Optimization (WAPO), a simple online clipped policy-gradient objective that updates only on positive-advantage completions. Across mathematical reasoning and multi-hop QA benchmarks, WAPO improves training stability and matches or outperforms baselines across multiple model families. Full code can be found at https://github.com/layer6ai-labs/wapo.