ChatPaper.aiChatPaper

I token a bassa probabilità sostengono l'esplorazione nell'apprendimento per rinforzo con ricompensa verificabile

Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward

October 3, 2025
Autori: Guanhua Huang, Tingqiang Xu, Mingze Wang, Qi Yi, Xue Gong, Siheng Li, Ruibin Xiong, Kejiao Li, Yuhao Jiang, Bo Zhou
cs.AI

Abstract

Il Reinforcement Learning con Ricompense Verificabili (RLVR) ha spinto i Modelli Linguistici di Grande Dimensione verso ragionamenti complessi, ma la sua scalabilità è spesso ostacolata da un collo di bottiglia nell'addestramento, in cui le prestazioni si stabilizzano quando l'entropia della politica collassa, segnalando una perdita di esplorazione. I metodi precedenti affrontano tipicamente questo problema mantenendo un'elevata entropia della politica, ma i meccanismi precisi che governano un'esplorazione significativa sono rimasti poco esplorati. La nostra analisi suggerisce che un focus non selettivo sull'entropia rischia di amplificare token irrilevanti e destabilizzare l'addestramento. Questo articolo indaga le dinamiche di esplorazione all'interno dell'RLVR e identifica un problema chiave: l'eliminazione graduale di token esplorativi a bassa probabilità ma preziosi, che definiamo \textit{scintille di ragionamento}. Rileviamo che, sebbene abbondanti nei modelli pre-addestrati, queste scintille vengono sistematicamente estinte durante l'RLVR a causa di una penalizzazione eccessiva, portando a una degenerazione dell'esplorazione. Per affrontare questo problema, introduciamo la Regolarizzazione a Bassa Probabilità (Lp-Reg). Il suo meccanismo principale regolarizza la politica verso una distribuzione proxy euristica. Questo proxy è costruito filtrando i token presumibilmente rumorosi e rinormalizzando la distribuzione sui candidati rimanenti. Il risultato è un proxy meno rumoroso in cui la probabilità delle scintille di ragionamento è amplificata, che funge poi da obiettivo di regolarizzazione soft per proteggere questi token preziosi dall'eliminazione tramite la divergenza KL. Gli esperimenti dimostrano che Lp-Reg consente un addestramento on-policy stabile per circa 1.000 passi, un regime in cui i metodi di controllo dell'entropia di base collassano. Questa esplorazione sostenuta porta a prestazioni all'avanguardia, raggiungendo una precisione media del 60,17% su cinque benchmark matematici, un miglioramento del 2,66% rispetto ai metodi precedenti. Il codice è disponibile all'indirizzo https://github.com/CarlanLark/Lp-Reg.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has propelled Large Language Models in complex reasoning, yet its scalability is often hindered by a training bottleneck where performance plateaus as policy entropy collapses, signaling a loss of exploration. Previous methods typically address this by maintaining high policy entropy, yet the precise mechanisms that govern meaningful exploration have remained underexplored. Our analysis suggests that an unselective focus on entropy risks amplifying irrelevant tokens and destabilizing training. This paper investigates the exploration dynamics within RLVR and identifies a key issue: the gradual elimination of valuable low-probability exploratory tokens, which we term \textit{reasoning sparks}. We find that while abundant in pre-trained models, these sparks are systematically extinguished during RLVR due to over-penalization, leading to a degeneracy in exploration. To address this, we introduce Low-probability Regularization (Lp-Reg). Its core mechanism regularizes the policy towards a heuristic proxy distribution. This proxy is constructed by filtering out presumed noise tokens and re-normalizing the distribution over the remaining candidates. The result is a less-noisy proxy where the probability of reasoning sparks is amplified, which then serves as a soft regularization target to shield these valuable tokens from elimination via KL divergence. Experiments show that Lp-Reg enables stable on-policy training for around 1,000 steps, a regime where baseline entropy-control methods collapse. This sustained exploration leads to state-of-the-art performance, achieving a 60.17% average accuracy on five math benchmarks, an improvement of 2.66% over prior methods. Code is available at https://github.com/CarlanLark/Lp-Reg.
PDF432October 10, 2025