STAPO : Stabiliser l'apprentissage par renforcement pour les LLM en réduisant les tokens parasites rares
STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens
February 17, 2026
papers.authors: Shiqi Liu, Zeyu He, Guojian Zhan, Letian Tao, Zhilong Zheng, Jiang Wu, Yinuo Wang, Yang Guan, Kehua Sheng, Bo Zhang, Keqiang Li, Jingliang Duan, Shengbo Eben Li
cs.AI
papers.abstract
L'apprentissage par renforcement (RL) a considérablement amélioré le raisonnement des grands modèles de langage, mais les méthodes existantes de réglage fin par RL reposent fortement sur des techniques heuristiques telles que la régularisation par entropie et la pondération pour maintenir la stabilité. En pratique, elles subissent souvent un effondrement des performances en phase avancée, conduisant à une dégradation de la qualité du raisonnement et à un apprentissage instable. Nous démontrons que l'amplitude des gradients de politique par token en RL est négativement corrélée à la probabilité du token et à l'entropie locale de la politique. Sur la base de ce résultat, nous prouvons que l'instabilité de l'apprentissage est pilotée par une infime fraction de tokens, environ 0,01 %, que nous nommons tokens parasites. Lorsque de tels tokens apparaissent dans des réponses correctes, ils contribuent peu au résultat du raisonnement mais héritent de la récompense complète au niveau de la séquence, conduisant à des mises à jour de gradient anormalement amplifiées. Motivés par cette observation, nous proposons l'Optimisation de Politique Sensible aux Tokens Parasites (STAPO) pour le raffinement de modèles à grande échelle, qui masque sélectivement ces mises à jour et renormalise la perte sur les tokens valides. Sur six benchmarks de raisonnement mathématique utilisant les modèles de base Qwen 1.7B, 8B et 14B, STAPO démontre constamment une stabilité d'entropie supérieure et obtient une amélioration moyenne des performances de 7,13 % par rapport à GRPO, 20-Entropy et JustRL.
English
Reinforcement Learning (RL) has significantly improved large language model reasoning, but existing RL fine-tuning methods rely heavily on heuristic techniques such as entropy regularization and reweighting to maintain stability. In practice, they often experience late-stage performance collapse, leading to degraded reasoning quality and unstable training. We derive that the magnitude of token-wise policy gradients in RL is negatively correlated with token probability and local policy entropy. Building on this result, we prove that training instability is driven by a tiny fraction of tokens, approximately 0.01\%, which we term spurious tokens. When such tokens appear in correct responses, they contribute little to the reasoning outcome but inherit the full sequence-level reward, leading to abnormally amplified gradient updates. Motivated by this observation, we propose Spurious-Token-Aware Policy Optimization (STAPO) for large-scale model refining, which selectively masks such updates and renormalizes the loss over valid tokens. Across six mathematical reasoning benchmarks using Qwen 1.7B, 8B, and 14B base models, STAPO consistently demonstrates superior entropy stability and achieves an average performance improvement of 7.13\% over GRPO, 20-Entropy and JustRL.