I token a bassa probabilità sostengono l'esplorazione nell'apprendimento per rinforzo con ricompensa verificabile
Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward
October 3, 2025
Autori: Guanhua Huang, Tingqiang Xu, Mingze Wang, Qi Yi, Xue Gong, Siheng Li, Ruibin Xiong, Kejiao Li, Yuhao Jiang, Bo Zhou
cs.AI
Abstract
Il Reinforcement Learning con Ricompense Verificabili (RLVR) ha spinto i Modelli Linguistici di Grande Dimensione verso ragionamenti complessi, ma la sua scalabilità è spesso ostacolata da un collo di bottiglia nell'addestramento, in cui le prestazioni si stabilizzano quando l'entropia della politica collassa, segnalando una perdita di esplorazione. I metodi precedenti affrontano tipicamente questo problema mantenendo un'elevata entropia della politica, ma i meccanismi precisi che governano un'esplorazione significativa sono rimasti poco esplorati. La nostra analisi suggerisce che un focus non selettivo sull'entropia rischia di amplificare token irrilevanti e destabilizzare l'addestramento. Questo articolo indaga le dinamiche di esplorazione all'interno dell'RLVR e identifica un problema chiave: l'eliminazione graduale di token esplorativi a bassa probabilità ma preziosi, che definiamo \textit{scintille di ragionamento}. Rileviamo che, sebbene abbondanti nei modelli pre-addestrati, queste scintille vengono sistematicamente estinte durante l'RLVR a causa di una penalizzazione eccessiva, portando a una degenerazione dell'esplorazione. Per affrontare questo problema, introduciamo la Regolarizzazione a Bassa Probabilità (Lp-Reg). Il suo meccanismo principale regolarizza la politica verso una distribuzione proxy euristica. Questo proxy è costruito filtrando i token presumibilmente rumorosi e rinormalizzando la distribuzione sui candidati rimanenti. Il risultato è un proxy meno rumoroso in cui la probabilità delle scintille di ragionamento è amplificata, che funge poi da obiettivo di regolarizzazione soft per proteggere questi token preziosi dall'eliminazione tramite la divergenza KL. Gli esperimenti dimostrano che Lp-Reg consente un addestramento on-policy stabile per circa 1.000 passi, un regime in cui i metodi di controllo dell'entropia di base collassano. Questa esplorazione sostenuta porta a prestazioni all'avanguardia, raggiungendo una precisione media del 60,17% su cinque benchmark matematici, un miglioramento del 2,66% rispetto ai metodi precedenti. Il codice è disponibile all'indirizzo https://github.com/CarlanLark/Lp-Reg.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has propelled Large
Language Models in complex reasoning, yet its scalability is often hindered by
a training bottleneck where performance plateaus as policy entropy collapses,
signaling a loss of exploration. Previous methods typically address this by
maintaining high policy entropy, yet the precise mechanisms that govern
meaningful exploration have remained underexplored. Our analysis suggests that
an unselective focus on entropy risks amplifying irrelevant tokens and
destabilizing training. This paper investigates the exploration dynamics within
RLVR and identifies a key issue: the gradual elimination of valuable
low-probability exploratory tokens, which we term \textit{reasoning
sparks}. We find that while abundant in pre-trained models, these sparks are
systematically extinguished during RLVR due to over-penalization, leading to a
degeneracy in exploration. To address this, we introduce Low-probability
Regularization (Lp-Reg). Its core mechanism regularizes the policy towards a
heuristic proxy distribution. This proxy is constructed by filtering out
presumed noise tokens and re-normalizing the distribution over the remaining
candidates. The result is a less-noisy proxy where the probability of
reasoning sparks is amplified, which then serves as a soft
regularization target to shield these valuable tokens from elimination via KL
divergence. Experiments show that Lp-Reg enables stable on-policy training for
around 1,000 steps, a regime where baseline entropy-control methods collapse.
This sustained exploration leads to state-of-the-art performance, achieving a
60.17% average accuracy on five math benchmarks, an improvement of 2.66%
over prior methods. Code is available at https://github.com/CarlanLark/Lp-Reg.