ChatPaper.aiChatPaper

Les jetons de faible probabilité soutiennent l'exploration dans l'apprentissage par renforcement avec récompense vérifiable

Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward

October 3, 2025
papers.authors: Guanhua Huang, Tingqiang Xu, Mingze Wang, Qi Yi, Xue Gong, Siheng Li, Ruibin Xiong, Kejiao Li, Yuhao Jiang, Bo Zhou
cs.AI

papers.abstract

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a propulsé les modèles de langage de grande envergure dans le raisonnement complexe, mais sa scalabilité est souvent entravée par un goulot d'étranglement lors de l'entraînement, où les performances plafonnent à mesure que l'entropie de la politique s'effondre, signalant une perte d'exploration. Les méthodes précédentes abordent généralement ce problème en maintenant une entropie de politique élevée, mais les mécanismes précis qui régissent une exploration significative restent sous-explorés. Notre analyse suggère qu'une focalisation non sélective sur l'entropie risque d'amplifier des tokens non pertinents et de déstabiliser l'entraînement. Cet article étudie la dynamique d'exploration au sein du RLVR et identifie un problème clé : l'élimination progressive de tokens exploratoires de faible probabilité mais précieux, que nous appelons \textit{étincelles de raisonnement}. Nous constatons que, bien qu'abondants dans les modèles pré-entraînés, ces étincelles sont systématiquement éteintes pendant le RLVR en raison d'une sur-pénalisation, conduisant à une dégénérescence de l'exploration. Pour y remédier, nous introduisons la régularisation des faibles probabilités (Lp-Reg). Son mécanisme central régularise la politique vers une distribution heuristique de substitution. Cette substitution est construite en filtrant les tokens supposés être du bruit et en renormalisant la distribution sur les candidats restants. Le résultat est une substitution moins bruitée où la probabilité des étincelles de raisonnement est amplifiée, servant ensuite de cible de régularisation douce pour protéger ces tokens précieux de l'élimination via la divergence de KL. Les expériences montrent que Lp-Reg permet un entraînement stable sur la politique pendant environ 1 000 étapes, un régime où les méthodes de contrôle de l'entropie de référence s'effondrent. Cette exploration soutenue conduit à des performances de pointe, atteignant une précision moyenne de 60,17 % sur cinq benchmarks mathématiques, soit une amélioration de 2,66 % par rapport aux méthodes précédentes. Le code est disponible à l'adresse https://github.com/CarlanLark/Lp-Reg.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has propelled Large Language Models in complex reasoning, yet its scalability is often hindered by a training bottleneck where performance plateaus as policy entropy collapses, signaling a loss of exploration. Previous methods typically address this by maintaining high policy entropy, yet the precise mechanisms that govern meaningful exploration have remained underexplored. Our analysis suggests that an unselective focus on entropy risks amplifying irrelevant tokens and destabilizing training. This paper investigates the exploration dynamics within RLVR and identifies a key issue: the gradual elimination of valuable low-probability exploratory tokens, which we term \textit{reasoning sparks}. We find that while abundant in pre-trained models, these sparks are systematically extinguished during RLVR due to over-penalization, leading to a degeneracy in exploration. To address this, we introduce Low-probability Regularization (Lp-Reg). Its core mechanism regularizes the policy towards a heuristic proxy distribution. This proxy is constructed by filtering out presumed noise tokens and re-normalizing the distribution over the remaining candidates. The result is a less-noisy proxy where the probability of reasoning sparks is amplified, which then serves as a soft regularization target to shield these valuable tokens from elimination via KL divergence. Experiments show that Lp-Reg enables stable on-policy training for around 1,000 steps, a regime where baseline entropy-control methods collapse. This sustained exploration leads to state-of-the-art performance, achieving a 60.17% average accuracy on five math benchmarks, an improvement of 2.66% over prior methods. Code is available at https://github.com/CarlanLark/Lp-Reg.
PDF332October 10, 2025