ChatPaper.aiChatPaper

STAPO: 稀な偽りのトークンを抑制することで大規模言語モデルの強化学習を安定化

STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

February 17, 2026
著者: Shiqi Liu, Zeyu He, Guojian Zhan, Letian Tao, Zhilong Zheng, Jiang Wu, Yinuo Wang, Yang Guan, Kehua Sheng, Bo Zhang, Keqiang Li, Jingliang Duan, Shengbo Eben Li
cs.AI

要旨

強化学習(RL)は大規模言語モデルの推論能力を大幅に改善してきたが、既存のRLファインチューニング手法は、安定性を維持するためにエントロピー正則化や重み付けなどのヒューリスティックな技術に大きく依存している。実際には、学習の後期段階で性能が急落する現象がしばしば発生し、推論品質の低下や学習の不安定性を引き起こす。本研究では、RLにおけるトークンレベルの方策勾配の大きさが、トークン確率および局所的な方策エントロピーと負の相関を持つことを導出する。この結果に基づき、学習の不安定性が全トークンの約0.01%というごく一部のトークン(これを疑似トークンと称する)によって駆動されていることを証明する。このようなトークンが正解応答中に現れる場合、それらは推論結果にほとんど寄与しないにもかかわらず、シーケンスレベルの報酬を全面的に継承し、異常に増幅された勾配更新を引き起こす。この観察に動機づけられて、大規模モデルの調整のための疑似トークン考慮型方策最適化(STAPO)を提案する。STAPOはこのような更新を選択的にマスクし、有効なトークンに対する損失を再正規化する。Qwen 1.7B、8B、14Bのベースモデルを用いた6つの数学的推論ベンチマークにおいて、STAPOは一貫して優れたエントロピー安定性を示し、GRPO、20-Entropy、JustRLと比較して平均7.13%の性能向上を達成した。
English
Reinforcement Learning (RL) has significantly improved large language model reasoning, but existing RL fine-tuning methods rely heavily on heuristic techniques such as entropy regularization and reweighting to maintain stability. In practice, they often experience late-stage performance collapse, leading to degraded reasoning quality and unstable training. We derive that the magnitude of token-wise policy gradients in RL is negatively correlated with token probability and local policy entropy. Building on this result, we prove that training instability is driven by a tiny fraction of tokens, approximately 0.01\%, which we term spurious tokens. When such tokens appear in correct responses, they contribute little to the reasoning outcome but inherit the full sequence-level reward, leading to abnormally amplified gradient updates. Motivated by this observation, we propose Spurious-Token-Aware Policy Optimization (STAPO) for large-scale model refining, which selectively masks such updates and renormalizes the loss over valid tokens. Across six mathematical reasoning benchmarks using Qwen 1.7B, 8B, and 14B base models, STAPO consistently demonstrates superior entropy stability and achieves an average performance improvement of 7.13\% over GRPO, 20-Entropy and JustRL.
PDF31February 19, 2026