Низковероятные токены поддерживают исследование в обучении с подкреплением с верифицируемой наградой
Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward
October 3, 2025
Авторы: Guanhua Huang, Tingqiang Xu, Mingze Wang, Qi Yi, Xue Gong, Siheng Li, Ruibin Xiong, Kejiao Li, Yuhao Jiang, Bo Zhou
cs.AI
Аннотация
Обучение с подкреплением с верифицируемыми наградами (RLVR) значительно продвинуло крупные языковые модели в сложных задачах рассуждения, однако его масштабируемость часто ограничивается узким местом в обучении, где производительность выходит на плато по мере коллапса энтропии политики, что сигнализирует о потере исследования. Традиционные методы обычно решают эту проблему за счет поддержания высокой энтропии политики, однако точные механизмы, управляющие осмысленным исследованием, остаются недостаточно изученными. Наш анализ показывает, что неселективное внимание к энтропии рискует усилить нерелевантные токены и дестабилизировать обучение. В данной работе исследуется динамика исследования в RLVR и выявляется ключевая проблема: постепенное устранение ценных низковероятностных исследовательских токенов, которые мы называем \textit{искрами рассуждения}. Мы обнаруживаем, что, хотя такие искры обильно присутствуют в предобученных моделях, они систематически подавляются в ходе RLVR из-за чрезмерного штрафования, что приводит к дегенерации исследования. Для решения этой проблемы мы вводим Низковероятностную Регуляризацию (Lp-Reg). Её основной механизм регулирует политику в сторону эвристического прокси-распределения. Это прокси-распределение строится путем фильтрации предполагаемых шумовых токенов и повторной нормализации распределения над оставшимися кандидатами. В результате получается менее зашумленное прокси-распределение, где вероятность искр рассуждения усиливается, что затем служит мягкой целью регуляризации для защиты этих ценных токенов от устранения через расхождение Кульбака-Лейблера. Эксперименты показывают, что Lp-Reg позволяет стабильное обучение на политике в течение примерно 1000 шагов, в то время как базовые методы контроля энтропии терпят крах. Это устойчивое исследование приводит к достижению наилучших результатов, демонстрируя среднюю точность 60,17% на пяти математических бенчмарках, что на 2,66% выше, чем у предыдущих методов. Код доступен по адресу https://github.com/CarlanLark/Lp-Reg.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has propelled Large
Language Models in complex reasoning, yet its scalability is often hindered by
a training bottleneck where performance plateaus as policy entropy collapses,
signaling a loss of exploration. Previous methods typically address this by
maintaining high policy entropy, yet the precise mechanisms that govern
meaningful exploration have remained underexplored. Our analysis suggests that
an unselective focus on entropy risks amplifying irrelevant tokens and
destabilizing training. This paper investigates the exploration dynamics within
RLVR and identifies a key issue: the gradual elimination of valuable
low-probability exploratory tokens, which we term \textit{reasoning
sparks}. We find that while abundant in pre-trained models, these sparks are
systematically extinguished during RLVR due to over-penalization, leading to a
degeneracy in exploration. To address this, we introduce Low-probability
Regularization (Lp-Reg). Its core mechanism regularizes the policy towards a
heuristic proxy distribution. This proxy is constructed by filtering out
presumed noise tokens and re-normalizing the distribution over the remaining
candidates. The result is a less-noisy proxy where the probability of
reasoning sparks is amplified, which then serves as a soft
regularization target to shield these valuable tokens from elimination via KL
divergence. Experiments show that Lp-Reg enables stable on-policy training for
around 1,000 steps, a regime where baseline entropy-control methods collapse.
This sustained exploration leads to state-of-the-art performance, achieving a
60.17% average accuracy on five math benchmarks, an improvement of 2.66%
over prior methods. Code is available at https://github.com/CarlanLark/Lp-Reg.