Tokens de Baja Probabilidad Sostienen la Exploración en Aprendizaje por Refuerzo con Recompensas Verificables
Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward
October 3, 2025
Autores: Guanhua Huang, Tingqiang Xu, Mingze Wang, Qi Yi, Xue Gong, Siheng Li, Ruibin Xiong, Kejiao Li, Yuhao Jiang, Bo Zhou
cs.AI
Resumen
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha impulsado a los Modelos de Lenguaje de Gran Escala en el razonamiento complejo, pero su escalabilidad a menudo se ve obstaculizada por un cuello de botella en el entrenamiento, donde el rendimiento se estanca a medida que la entropía de la política colapsa, lo que indica una pérdida de exploración. Los métodos anteriores suelen abordar esto manteniendo una alta entropía de la política, pero los mecanismos precisos que gobiernan una exploración significativa han sido poco explorados. Nuestro análisis sugiere que un enfoque no selectivo en la entropía corre el riesgo de amplificar tokens irrelevantes y desestabilizar el entrenamiento. Este artículo investiga la dinámica de exploración dentro de RLVR e identifica un problema clave: la eliminación gradual de tokens exploratorios de baja probabilidad pero valiosos, a los que denominamos \textit{chispas de razonamiento}. Descubrimos que, aunque abundan en los modelos preentrenados, estas chispas se extinguen sistemáticamente durante RLVR debido a una sobrepenalización, lo que lleva a una degeneración en la exploración. Para abordar esto, introducimos la Regularización de Baja Probabilidad (Lp-Reg). Su mecanismo central regulariza la política hacia una distribución heurística proxy. Este proxy se construye filtrando los tokens que se presume son ruido y renormalizando la distribución sobre los candidatos restantes. El resultado es un proxy menos ruidoso donde la probabilidad de las chispas de razonamiento se amplifica, lo que luego sirve como un objetivo de regularización suave para proteger estos tokens valiosos de la eliminación mediante la divergencia de KL. Los experimentos muestran que Lp-Reg permite un entrenamiento estable en política durante alrededor de 1,000 pasos, un régimen en el que los métodos de control de entropía de referencia colapsan. Esta exploración sostenida conduce a un rendimiento de vanguardia, logrando una precisión promedio del 60.17% en cinco benchmarks matemáticos, una mejora del 2.66% sobre los métodos anteriores. El código está disponible en https://github.com/CarlanLark/Lp-Reg.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has propelled Large
Language Models in complex reasoning, yet its scalability is often hindered by
a training bottleneck where performance plateaus as policy entropy collapses,
signaling a loss of exploration. Previous methods typically address this by
maintaining high policy entropy, yet the precise mechanisms that govern
meaningful exploration have remained underexplored. Our analysis suggests that
an unselective focus on entropy risks amplifying irrelevant tokens and
destabilizing training. This paper investigates the exploration dynamics within
RLVR and identifies a key issue: the gradual elimination of valuable
low-probability exploratory tokens, which we term \textit{reasoning
sparks}. We find that while abundant in pre-trained models, these sparks are
systematically extinguished during RLVR due to over-penalization, leading to a
degeneracy in exploration. To address this, we introduce Low-probability
Regularization (Lp-Reg). Its core mechanism regularizes the policy towards a
heuristic proxy distribution. This proxy is constructed by filtering out
presumed noise tokens and re-normalizing the distribution over the remaining
candidates. The result is a less-noisy proxy where the probability of
reasoning sparks is amplified, which then serves as a soft
regularization target to shield these valuable tokens from elimination via KL
divergence. Experiments show that Lp-Reg enables stable on-policy training for
around 1,000 steps, a regime where baseline entropy-control methods collapse.
This sustained exploration leads to state-of-the-art performance, achieving a
60.17% average accuracy on five math benchmarks, an improvement of 2.66%
over prior methods. Code is available at https://github.com/CarlanLark/Lp-Reg.