Les jetons de faible probabilité soutiennent l'exploration dans l'apprentissage par renforcement avec récompense vérifiable
Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward
October 3, 2025
papers.authors: Guanhua Huang, Tingqiang Xu, Mingze Wang, Qi Yi, Xue Gong, Siheng Li, Ruibin Xiong, Kejiao Li, Yuhao Jiang, Bo Zhou
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a propulsé les modèles de langage de grande envergure dans le raisonnement complexe, mais sa scalabilité est souvent entravée par un goulot d'étranglement lors de l'entraînement, où les performances plafonnent à mesure que l'entropie de la politique s'effondre, signalant une perte d'exploration. Les méthodes précédentes abordent généralement ce problème en maintenant une entropie de politique élevée, mais les mécanismes précis qui régissent une exploration significative restent sous-explorés. Notre analyse suggère qu'une focalisation non sélective sur l'entropie risque d'amplifier des tokens non pertinents et de déstabiliser l'entraînement. Cet article étudie la dynamique d'exploration au sein du RLVR et identifie un problème clé : l'élimination progressive de tokens exploratoires de faible probabilité mais précieux, que nous appelons \textit{étincelles de raisonnement}. Nous constatons que, bien qu'abondants dans les modèles pré-entraînés, ces étincelles sont systématiquement éteintes pendant le RLVR en raison d'une sur-pénalisation, conduisant à une dégénérescence de l'exploration. Pour y remédier, nous introduisons la régularisation des faibles probabilités (Lp-Reg). Son mécanisme central régularise la politique vers une distribution heuristique de substitution. Cette substitution est construite en filtrant les tokens supposés être du bruit et en renormalisant la distribution sur les candidats restants. Le résultat est une substitution moins bruitée où la probabilité des étincelles de raisonnement est amplifiée, servant ensuite de cible de régularisation douce pour protéger ces tokens précieux de l'élimination via la divergence de KL. Les expériences montrent que Lp-Reg permet un entraînement stable sur la politique pendant environ 1 000 étapes, un régime où les méthodes de contrôle de l'entropie de référence s'effondrent. Cette exploration soutenue conduit à des performances de pointe, atteignant une précision moyenne de 60,17 % sur cinq benchmarks mathématiques, soit une amélioration de 2,66 % par rapport aux méthodes précédentes. Le code est disponible à l'adresse https://github.com/CarlanLark/Lp-Reg.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has propelled Large
Language Models in complex reasoning, yet its scalability is often hindered by
a training bottleneck where performance plateaus as policy entropy collapses,
signaling a loss of exploration. Previous methods typically address this by
maintaining high policy entropy, yet the precise mechanisms that govern
meaningful exploration have remained underexplored. Our analysis suggests that
an unselective focus on entropy risks amplifying irrelevant tokens and
destabilizing training. This paper investigates the exploration dynamics within
RLVR and identifies a key issue: the gradual elimination of valuable
low-probability exploratory tokens, which we term \textit{reasoning
sparks}. We find that while abundant in pre-trained models, these sparks are
systematically extinguished during RLVR due to over-penalization, leading to a
degeneracy in exploration. To address this, we introduce Low-probability
Regularization (Lp-Reg). Its core mechanism regularizes the policy towards a
heuristic proxy distribution. This proxy is constructed by filtering out
presumed noise tokens and re-normalizing the distribution over the remaining
candidates. The result is a less-noisy proxy where the probability of
reasoning sparks is amplified, which then serves as a soft
regularization target to shield these valuable tokens from elimination via KL
divergence. Experiments show that Lp-Reg enables stable on-policy training for
around 1,000 steps, a regime where baseline entropy-control methods collapse.
This sustained exploration leads to state-of-the-art performance, achieving a
60.17% average accuracy on five math benchmarks, an improvement of 2.66%
over prior methods. Code is available at https://github.com/CarlanLark/Lp-Reg.