STAPO: Stabilisierung von Reinforcement Learning für LLMs durch Unterdrückung seltener irreführender Tokens
STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens
February 17, 2026
papers.authors: Shiqi Liu, Zeyu He, Guojian Zhan, Letian Tao, Zhilong Zheng, Jiang Wu, Yinuo Wang, Yang Guan, Kehua Sheng, Bo Zhang, Keqiang Li, Jingliang Duan, Shengbo Eben Li
cs.AI
papers.abstract
Reinforcement Learning (RL) hat das Reasoning großer Sprachmodelle erheblich verbessert, doch bestehende RL-Finetuning-Methoden sind stark von heuristischen Techniken wie Entropieregularisierung und Reweighting abhängig, um die Stabilität zu gewährleisten. In der Praxis kommt es häufig zu Performance-Einbrüchen in späteren Trainingsphasen, was zu einer Verschlechterung der Reasoning-Qualität und instabilem Training führt. Wir leiten her, dass die Größe der tokenweisen Policy-Gradienten in RL negativ mit der Token-Wahrscheinlichkeit und der lokalen Policy-Entropie korreliert. Aufbauend auf diesem Ergebnis beweisen wir, dass die Trainingsinstabilität durch einen winzigen Bruchteil von Tokens, etwa 0,01 %, verursacht wird, die wir als *spurious tokens* bezeichnen. Wenn solche Tokens in korrekten Antworten auftauchen, tragen sie wenig zum Reasoning-Ergebnis bei, erben jedoch die vollständige sequenzielle Belohnung, was zu abnormal verstärkten Gradientenupdates führt. Ausgehend von dieser Beobachtung schlagen wir Spurious-Token-Aware Policy Optimization (STAPO) für die Verfeinerung großskaliger Modelle vor, die solche Updates selektiv maskiert und den Verlust über gültige Tokens renormiert. In sechs mathematischen Reasoning-Benchmarks mit Qwen 1.7B-, 8B- und 14B-Basismodellen zeigt STAPO durchgängig eine überlegene Entropiestabilität und erreicht eine durchschnittliche Leistungssteigerung von 7,13 % gegenüber GRPO, 20-Entropy und JustRL.
English
Reinforcement Learning (RL) has significantly improved large language model reasoning, but existing RL fine-tuning methods rely heavily on heuristic techniques such as entropy regularization and reweighting to maintain stability. In practice, they often experience late-stage performance collapse, leading to degraded reasoning quality and unstable training. We derive that the magnitude of token-wise policy gradients in RL is negatively correlated with token probability and local policy entropy. Building on this result, we prove that training instability is driven by a tiny fraction of tokens, approximately 0.01\%, which we term spurious tokens. When such tokens appear in correct responses, they contribute little to the reasoning outcome but inherit the full sequence-level reward, leading to abnormally amplified gradient updates. Motivated by this observation, we propose Spurious-Token-Aware Policy Optimization (STAPO) for large-scale model refining, which selectively masks such updates and renormalizes the loss over valid tokens. Across six mathematical reasoning benchmarks using Qwen 1.7B, 8B, and 14B base models, STAPO consistently demonstrates superior entropy stability and achieves an average performance improvement of 7.13\% over GRPO, 20-Entropy and JustRL.