STAPO: Estabilizando o Aprendizado por Reforço para LLMs por meio da Supressão de Tokens Espúrios Raros

Resumo

O Aprendizado por Reforço (RL) melhorou significativamente o raciocínio de modelos de linguagem grandes, mas os métodos existentes de ajuste fino por RL dependem fortemente de técnicas heurísticas, como regularização de entropia e reamostragem, para manter a estabilidade. Na prática, eles frequentemente experimentam colapso de desempenho em estágios avançados, levando à degradação da qualidade do raciocínio e a treinamento instável. Nós derivamos que a magnitude dos gradientes da política por token no RL está negativamente correlacionada com a probabilidade do token e a entropia local da política. Com base nesse resultado, provamos que a instabilidade do treinamento é impulsionada por uma pequena fração de tokens, aproximadamente 0,01\%, que denominamos *tokens espúrios*. Quando tais tokens aparecem em respostas corretas, eles contribuem pouco para o resultado do raciocínio, mas herdam a recompensa completa em nível de sequência, levando a atualizações de gradiente anormalmente amplificadas. Motivados por essa observação, propomos o *Spurious-Token-Aware Policy Optimization* (STAPO) para refinamento de modelos em larga escala, que mascara seletivamente tais atualizações e renormaliza a perda sobre os tokens válidos. Em seis benchmarks de raciocínio matemático usando os modelos base Qwen 1.7B, 8B e 14B, o STAPO demonstra consistentemente estabilidade de entropia superior e alcança uma melhoria média de desempenho de 7,13\% sobre GRPO, 20-Entropy e JustRL.

English

Reinforcement Learning (RL) has significantly improved large language model reasoning, but existing RL fine-tuning methods rely heavily on heuristic techniques such as entropy regularization and reweighting to maintain stability. In practice, they often experience late-stage performance collapse, leading to degraded reasoning quality and unstable training. We derive that the magnitude of token-wise policy gradients in RL is negatively correlated with token probability and local policy entropy. Building on this result, we prove that training instability is driven by a tiny fraction of tokens, approximately 0.01\%, which we term spurious tokens. When such tokens appear in correct responses, they contribute little to the reasoning outcome but inherit the full sequence-level reward, leading to abnormally amplified gradient updates. Motivated by this observation, we propose Spurious-Token-Aware Policy Optimization (STAPO) for large-scale model refining, which selectively masks such updates and renormalizes the loss over valid tokens. Across six mathematical reasoning benchmarks using Qwen 1.7B, 8B, and 14B base models, STAPO consistently demonstrates superior entropy stability and achieves an average performance improvement of 7.13\% over GRPO, 20-Entropy and JustRL.

STAPO: Estabilizando o Aprendizado por Reforço para LLMs por meio da Supressão de Tokens Espúrios Raros

STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

Resumo

Support