Uma Perspectiva de Gradiente sobre a Estabilidade de RLVR e Otimização de Política com Vantagem do Vencedor

Resumo

Aprendizado por reforço com recompensas verificáveis (RLVR) melhora o raciocínio de modelos de linguagem, mas a otimização do tipo GRPO ainda é propensa ao colapso. Analisamos esta instabilidade por meio da dinâmica de gradientes em nível de token, derivando uma taxonomia que prevê como as atualizações afetam as probabilidades do próximo token e a entropia. A taxonomia mostra que a estabilidade depende conjuntamente do sinal da vantagem e da distribuição de tokens sob a política atual. Motivados por essa descoberta, propomos a Otimização de Política por Vantagem do Vencedor (WAPO), um objetivo simples de gradiente de política recortado online que atualiza apenas completudes com vantagem positiva. Em benchmarks de raciocínio matemático e QA multi-salto, o WAPO melhora a estabilidade do treinamento e iguala ou supera as linhas de base em múltiplas famílias de modelos. O código completo pode ser encontrado em https://github.com/layer6ai-labs/wapo.

English

Reinforcement learning with verifiable rewards (RLVR) improves language-model reasoning, but GRPO-style optimization remains prone to collapse. We analyse this instability through token-level gradient dynamics, deriving a taxonomy that predicts how updates affect next-token probabilities and entropy. The taxonomy shows that stability depends jointly on the advantage sign and token distribution under the current policy. Motivated by this finding, we propose Winner Advantage Policy Optimization (WAPO), a simple online clipped policy-gradient objective that updates only on positive-advantage completions. Across mathematical reasoning and multi-hop QA benchmarks, WAPO improves training stability and matches or outperforms baselines across multiple model families. Full code can be found at https://github.com/layer6ai-labs/wapo.