Une perspective de gradient sur la stabilité de RLVR et l'optimisation de politique par avantage du gagnant

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) améliore le raisonnement des modèles de langage, mais l'optimisation de type GRPO reste sujette à l'effondrement. Nous analysons cette instabilité à travers la dynamique des gradients au niveau des jetons, en dérivant une taxonomie qui prédit comment les mises à jour affectent les probabilités des jetons suivants et l'entropie. La taxonomie montre que la stabilité dépend conjointement du signe de l'avantage et de la distribution des jetons sous la politique courante. Motivés par cette découverte, nous proposons Winner Advantage Policy Optimization (WAPO), un objectif simple en ligne d'optimisation de gradient de politique avec écrêtage, qui ne met à jour que les complétions à avantage positif. Sur des bancs d'essai de raisonnement mathématique et de questions-réponses à plusieurs sauts, WAPO améliore la stabilité de l'entraînement et égalise ou surpasse les bases de référence sur plusieurs familles de modèles. Le code complet est disponible à l'adresse https://github.com/layer6ai-labs/wapo.

English

Reinforcement learning with verifiable rewards (RLVR) improves language-model reasoning, but GRPO-style optimization remains prone to collapse. We analyse this instability through token-level gradient dynamics, deriving a taxonomy that predicts how updates affect next-token probabilities and entropy. The taxonomy shows that stability depends jointly on the advantage sign and token distribution under the current policy. Motivated by this finding, we propose Winner Advantage Policy Optimization (WAPO), a simple online clipped policy-gradient objective that updates only on positive-advantage completions. Across mathematical reasoning and multi-hop QA benchmarks, WAPO improves training stability and matches or outperforms baselines across multiple model families. Full code can be found at https://github.com/layer6ai-labs/wapo.