Laag-waarschijnlijkheidstokens onderhouden exploratie in reinforcement learning met verifieerbare beloning
Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward
October 3, 2025
Auteurs: Guanhua Huang, Tingqiang Xu, Mingze Wang, Qi Yi, Xue Gong, Siheng Li, Ruibin Xiong, Kejiao Li, Yuhao Jiang, Bo Zhou
cs.AI
Samenvatting
Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft Large Language Models vooruitgestuwd in complex redeneren, maar de schaalbaarheid wordt vaak belemmerd door een trainingsknelpunt waarbij de prestaties stagneren naarmate de entropie van het beleid ineenstort, wat wijst op een verlies van exploratie. Eerdere methoden pakken dit typisch aan door een hoge beleidsentropie te behouden, maar de precieze mechanismen die zinvolle exploratie sturen, zijn onderbelicht gebleven. Onze analyse suggereert dat een onselectieve focus op entropie het risico loopt irrelevante tokens te versterken en de training te destabiliseren. Dit artikel onderzoekt de exploratiedynamiek binnen RLVR en identificeert een kernprobleem: de geleidelijke eliminatie van waardevolle tokens met een lage waarschijnlijkheid voor exploratie, die we \textit{redeneringsvonken} noemen. We constateren dat hoewel deze vonken overvloedig aanwezig zijn in vooraf getrainde modellen, ze systematisch worden uitgedoofd tijdens RLVR door overmatige bestraffing, wat leidt tot een degeneratie van exploratie. Om dit aan te pakken, introduceren we Low-probability Regularization (Lp-Reg). Het kernmechanisme regulariseert het beleid naar een heuristische proxyverdeling. Deze proxy wordt geconstrueerd door vermeende ruistokens uit te filteren en de verdeling over de resterende kandidaten te hernormaliseren. Het resultaat is een minder ruisachtige proxy waarin de waarschijnlijkheid van redeneringsvonken wordt versterkt, die vervolgens dient als een zachte regularisatiedoelstelling om deze waardevolle tokens te beschermen tegen eliminatie via KL-divergentie. Experimenten tonen aan dat Lp-Reg stabiele on-policy training mogelijk maakt voor ongeveer 1.000 stappen, een regime waarin baseline methoden voor entropiebeheersing instorten. Deze aanhoudende exploratie leidt tot state-of-the-art prestaties, met een gemiddelde nauwkeurigheid van 60,17% op vijf wiskundige benchmarks, een verbetering van 2,66% ten opzichte van eerdere methoden. Code is beschikbaar op https://github.com/CarlanLark/Lp-Reg.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has propelled Large
Language Models in complex reasoning, yet its scalability is often hindered by
a training bottleneck where performance plateaus as policy entropy collapses,
signaling a loss of exploration. Previous methods typically address this by
maintaining high policy entropy, yet the precise mechanisms that govern
meaningful exploration have remained underexplored. Our analysis suggests that
an unselective focus on entropy risks amplifying irrelevant tokens and
destabilizing training. This paper investigates the exploration dynamics within
RLVR and identifies a key issue: the gradual elimination of valuable
low-probability exploratory tokens, which we term \textit{reasoning
sparks}. We find that while abundant in pre-trained models, these sparks are
systematically extinguished during RLVR due to over-penalization, leading to a
degeneracy in exploration. To address this, we introduce Low-probability
Regularization (Lp-Reg). Its core mechanism regularizes the policy towards a
heuristic proxy distribution. This proxy is constructed by filtering out
presumed noise tokens and re-normalizing the distribution over the remaining
candidates. The result is a less-noisy proxy where the probability of
reasoning sparks is amplified, which then serves as a soft
regularization target to shield these valuable tokens from elimination via KL
divergence. Experiments show that Lp-Reg enables stable on-policy training for
around 1,000 steps, a regime where baseline entropy-control methods collapse.
This sustained exploration leads to state-of-the-art performance, achieving a
60.17% average accuracy on five math benchmarks, an improvement of 2.66%
over prior methods. Code is available at https://github.com/CarlanLark/Lp-Reg.