低確率トークンが検証可能な報酬を用いた強化学習における探索を維持する
Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward
October 3, 2025
著者: Guanhua Huang, Tingqiang Xu, Mingze Wang, Qi Yi, Xue Gong, Siheng Li, Ruibin Xiong, Kejiao Li, Yuhao Jiang, Bo Zhou
cs.AI
要旨
検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデルの複雑な推論能力を向上させてきたが、そのスケーラビリティはしばしば訓練のボトルネックによって制限されている。このボトルネックでは、ポリシーのエントロピーが崩壊し、探索が失われることで性能が頭打ちになる。従来の手法では、一般的にポリシーのエントロピーを高く維持することでこの問題に対処してきたが、意味のある探索を支配する正確なメカニズムは十分に検討されていない。我々の分析によれば、エントロピーに無選択的に焦点を当てることは、無関係なトークンを増幅し、訓練を不安定にするリスクがある。本論文では、RLVR内の探索ダイナミクスを調査し、重要な問題を特定した:価値のある低確率の探索トークン、我々が「推論の火花」(reasoning sparks)と呼ぶものが徐々に排除されることである。事前学習済みモデルではこれらの火花が豊富に存在するが、RLVR中に過剰なペナルティによって系統的に消滅し、探索の退化を引き起こすことがわかった。この問題に対処するため、我々は低確率正則化(Lp-Reg)を導入する。その核心的なメカニズムは、ポリシーをヒューリスティックな代理分布に向けて正則化することである。この代理分布は、ノイズと推定されるトークンをフィルタリングし、残りの候補に対して分布を再正規化することで構築される。その結果、推論の火花の確率が増幅されたノイズの少ない代理分布が得られ、これがKLダイバージェンスを通じてこれらの価値あるトークンを排除から保護するためのソフトな正則化ターゲットとして機能する。実験結果は、Lp-Regが約1,000ステップにわたる安定したオン・ポリシー訓練を可能にすることを示しており、これはベースラインのエントロピー制御手法が崩壊する領域である。この持続的な探索は、5つの数学ベンチマークで平均60.17%の精度を達成し、従来の手法よりも2.66%の改善をもたらす最先端の性能を実現する。コードはhttps://github.com/CarlanLark/Lp-Regで公開されている。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has propelled Large
Language Models in complex reasoning, yet its scalability is often hindered by
a training bottleneck where performance plateaus as policy entropy collapses,
signaling a loss of exploration. Previous methods typically address this by
maintaining high policy entropy, yet the precise mechanisms that govern
meaningful exploration have remained underexplored. Our analysis suggests that
an unselective focus on entropy risks amplifying irrelevant tokens and
destabilizing training. This paper investigates the exploration dynamics within
RLVR and identifies a key issue: the gradual elimination of valuable
low-probability exploratory tokens, which we term \textit{reasoning
sparks}. We find that while abundant in pre-trained models, these sparks are
systematically extinguished during RLVR due to over-penalization, leading to a
degeneracy in exploration. To address this, we introduce Low-probability
Regularization (Lp-Reg). Its core mechanism regularizes the policy towards a
heuristic proxy distribution. This proxy is constructed by filtering out
presumed noise tokens and re-normalizing the distribution over the remaining
candidates. The result is a less-noisy proxy where the probability of
reasoning sparks is amplified, which then serves as a soft
regularization target to shield these valuable tokens from elimination via KL
divergence. Experiments show that Lp-Reg enables stable on-policy training for
around 1,000 steps, a regime where baseline entropy-control methods collapse.
This sustained exploration leads to state-of-the-art performance, achieving a
60.17% average accuracy on five math benchmarks, an improvement of 2.66%
over prior methods. Code is available at https://github.com/CarlanLark/Lp-Reg.