Tokens de Baixa Probabilidade Sustentam a Exploração no Aprendizado por Reforço com Recompensa Verificável

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) impulsionou os Modelos de Linguagem de Grande Escala em raciocínios complexos, mas sua escalabilidade é frequentemente limitada por um gargalo de treinamento onde o desempenho estabiliza à medida que a entropia da política colapsa, sinalizando uma perda de exploração. Métodos anteriores geralmente abordam isso mantendo uma alta entropia da política, mas os mecanismos precisos que governam uma exploração significativa permaneceram pouco explorados. Nossa análise sugere que um foco não seletivo na entropia corre o risco de amplificar tokens irrelevantes e desestabilizar o treinamento. Este artigo investiga a dinâmica de exploração dentro do RLVR e identifica um problema-chave: a eliminação gradual de tokens exploratórios de baixa probabilidade valiosos, que denominamos \textit{faíscas de raciocínio}. Descobrimos que, embora abundantes em modelos pré-treinados, essas faíscas são sistematicamente extintas durante o RLVR devido à superpenalização, levando a uma degeneração na exploração. Para resolver isso, introduzimos a Regularização de Baixa Probabilidade (Lp-Reg). Seu mecanismo central regulariza a política em direção a uma distribuição proxy heurística. Essa proxy é construída filtrando tokens presumivelmente ruidosos e renormalizando a distribuição sobre os candidatos restantes. O resultado é uma proxy menos ruidosa onde a probabilidade das faíscas de raciocínio é amplificada, que então serve como um alvo de regularização suave para proteger esses tokens valiosos da eliminação via divergência de KL. Experimentos mostram que o Lp-Reg permite um treinamento estável on-policy por cerca de 1.000 passos, um regime onde métodos de controle de entropia de linha de base colapsam. Essa exploração sustentada leva a um desempenho de ponta, alcançando uma precisão média de 60,17% em cinco benchmarks de matemática, uma melhoria de 2,66% em relação a métodos anteriores. O código está disponível em https://github.com/CarlanLark/Lp-Reg.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has propelled Large Language Models in complex reasoning, yet its scalability is often hindered by a training bottleneck where performance plateaus as policy entropy collapses, signaling a loss of exploration. Previous methods typically address this by maintaining high policy entropy, yet the precise mechanisms that govern meaningful exploration have remained underexplored. Our analysis suggests that an unselective focus on entropy risks amplifying irrelevant tokens and destabilizing training. This paper investigates the exploration dynamics within RLVR and identifies a key issue: the gradual elimination of valuable low-probability exploratory tokens, which we term \textit{reasoning sparks}. We find that while abundant in pre-trained models, these sparks are systematically extinguished during RLVR due to over-penalization, leading to a degeneracy in exploration. To address this, we introduce Low-probability Regularization (Lp-Reg). Its core mechanism regularizes the policy towards a heuristic proxy distribution. This proxy is constructed by filtering out presumed noise tokens and re-normalizing the distribution over the remaining candidates. The result is a less-noisy proxy where the probability of reasoning sparks is amplified, which then serves as a soft regularization target to shield these valuable tokens from elimination via KL divergence. Experiments show that Lp-Reg enables stable on-policy training for around 1,000 steps, a regime where baseline entropy-control methods collapse. This sustained exploration leads to state-of-the-art performance, achieving a 60.17% average accuracy on five math benchmarks, an improvement of 2.66% over prior methods. Code is available at https://github.com/CarlanLark/Lp-Reg.

Tokens de Baixa Probabilidade Sustentam a Exploração no Aprendizado por Reforço com Recompensa Verificável

Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward

Resumo

Support