Niedrigwahrscheinliche Tokens fördern die Exploration im Reinforcement Learning mit verifizierbarer Belohnung
Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward
October 3, 2025
papers.authors: Guanhua Huang, Tingqiang Xu, Mingze Wang, Qi Yi, Xue Gong, Siheng Li, Ruibin Xiong, Kejiao Li, Yuhao Jiang, Bo Zhou
cs.AI
papers.abstract
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat große Sprachmodelle im Bereich des komplexen Denkens vorangetrieben, doch seine Skalierbarkeit wird oft durch ein Trainingsproblem behindert, bei dem die Leistung stagniert, sobald die Policy-Entropie zusammenbricht, was auf einen Verlust der Exploration hinweist. Bisherige Methoden adressieren dies typischerweise durch die Aufrechterhaltung einer hohen Policy-Entropie, doch die genauen Mechanismen, die eine sinnvolle Exploration steuern, wurden bisher nur unzureichend erforscht. Unsere Analyse legt nahe, dass eine unselektive Fokussierung auf die Entropie das Risiko birgt, irrelevante Tokens zu verstärken und das Training zu destabilisieren. Diese Arbeit untersucht die Explorationsdynamik innerhalb von RLVR und identifiziert ein zentrales Problem: die schrittweise Eliminierung wertvoller, niedrigwahrscheinlicher Explorations-Tokens, die wir als \textit{Reasoning Sparks} bezeichnen. Wir stellen fest, dass diese Sparks zwar in vortrainierten Modellen reichlich vorhanden sind, jedoch während des RLVR aufgrund von Überbestrafung systematisch ausgelöscht werden, was zu einer Degeneration der Exploration führt. Um dies zu beheben, führen wir die Low-probability Regularization (Lp-Reg) ein. Ihr Kernmechanismus regularisiert die Policy in Richtung einer heuristischen Proxy-Verteilung. Diese Proxy-Verteilung wird konstruiert, indem vermutete Rauschtokens herausgefiltert und die Verteilung über die verbleibenden Kandidaten neu normalisiert wird. Das Ergebnis ist eine weniger verrauschte Proxy-Verteilung, in der die Wahrscheinlichkeit der Reasoning Sparks verstärkt wird, die dann als weiches Regularisierungsziel dient, um diese wertvollen Tokens durch KL-Divergenz vor der Eliminierung zu schützen. Experimente zeigen, dass Lp-Reg ein stabiles On-Policy-Training für etwa 1.000 Schritte ermöglicht, ein Bereich, in dem herkömmliche Entropie-Kontrollmethoden versagen. Diese anhaltende Exploration führt zu Spitzenleistungen, mit einer durchschnittlichen Genauigkeit von 60,17 % auf fünf mathematischen Benchmarks, was einer Verbesserung von 2,66 % gegenüber früheren Methoden entspricht. Der Code ist verfügbar unter https://github.com/CarlanLark/Lp-Reg.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has propelled Large
Language Models in complex reasoning, yet its scalability is often hindered by
a training bottleneck where performance plateaus as policy entropy collapses,
signaling a loss of exploration. Previous methods typically address this by
maintaining high policy entropy, yet the precise mechanisms that govern
meaningful exploration have remained underexplored. Our analysis suggests that
an unselective focus on entropy risks amplifying irrelevant tokens and
destabilizing training. This paper investigates the exploration dynamics within
RLVR and identifies a key issue: the gradual elimination of valuable
low-probability exploratory tokens, which we term \textit{reasoning
sparks}. We find that while abundant in pre-trained models, these sparks are
systematically extinguished during RLVR due to over-penalization, leading to a
degeneracy in exploration. To address this, we introduce Low-probability
Regularization (Lp-Reg). Its core mechanism regularizes the policy towards a
heuristic proxy distribution. This proxy is constructed by filtering out
presumed noise tokens and re-normalizing the distribution over the remaining
candidates. The result is a less-noisy proxy where the probability of
reasoning sparks is amplified, which then serves as a soft
regularization target to shield these valuable tokens from elimination via KL
divergence. Experiments show that Lp-Reg enables stable on-policy training for
around 1,000 steps, a regime where baseline entropy-control methods collapse.
This sustained exploration leads to state-of-the-art performance, achieving a
60.17% average accuracy on five math benchmarks, an improvement of 2.66%
over prior methods. Code is available at https://github.com/CarlanLark/Lp-Reg.