De P(y|x) para P(y): Investigando o Aprendizado por Reforço no Espaço de Pré-treinamento

Resumo

Embora o aprendizado por reforço com recompensas verificáveis (RLVR) aprimore significativamente o raciocínio de LLMs ao otimizar a distribuição condicional P(y|x), seu potencial é fundamentalmente limitado pela distribuição de saída existente do modelo base. A otimização da distribuição marginal P(y) no Espaço de Pré-treinamento aborda esse gargalo ao codificar a capacidade de raciocínio e preservar uma ampla capacidade de exploração. No entanto, o pré-treinamento convencional depende de corpora estáticos para aprendizado passivo, levando a um desvio de distribuição que dificulta o aprimoramento direcionado do raciocínio. Neste artigo, introduzimos o PreRL (Reinforcement Learning no Espaço de Pré-treinamento), que aplica atualizações online orientadas por recompensa diretamente a P(y). Validamos teórica e empiricamente o forte alinhamento de gradiente entre log P(y) e log P(y|x), estabelecendo o PreRL como um substituto viável para o RL padrão. Além disso, descobrimos um mecanismo crítico: o Reforço por Amostras Negativas (NSR) dentro do PreRL atua como um motor excepcionalmente eficaz para o raciocínio. O NSR-PreRL poda rapidamente os espaços de raciocínio incorretos, enquanto estimula comportamentos reflexivos endógenos, aumentando os pensamentos de transição e reflexão em 14,89x e 6,54x, respectivamente. Aproveitando esses insights, propomos o Dual Space RL (DSRL), uma estratégia de Reencarnação de Política que inicializa modelos com NSR-PreRL para expandir o horizonte de raciocínio antes de transitar para o RL padrão para uma otimização de granularidade fina. Experimentos extensivos demonstram que o DSRL supera consistentemente baselines fortes, provando que a poda no espaço de pré-treinamento direciona efetivamente a política para um subespaço refinado de raciocínio correto.

English

While reinforcement learning with verifiable rewards (RLVR) significantly enhances LLM reasoning by optimizing the conditional distribution P(y|x), its potential is fundamentally bounded by the base model's existing output distribution. Optimizing the marginal distribution P(y) in the Pre-train Space addresses this bottleneck by encoding reasoning ability and preserving broad exploration capacity. Yet, conventional pre-training relies on static corpora for passive learning, leading to a distribution shift that hinders targeted reasoning enhancement. In this paper, we introduce PreRL (Pre-train Space RL), which applies reward-driven online updates directly to P(y). We theoretically and empirically validate the strong gradient alignment between log P(y) and log P(y|x), establishing PreRL as a viable surrogate for standard RL. Furthermore, we uncover a critical mechanism: Negative Sample Reinforcement (NSR) within PreRL serves as an exceptionally effective driver for reasoning. NSR-PreRL rapidly prunes incorrect reasoning spaces while stimulating endogenous reflective behaviors, increasing transition and reflection thoughts by 14.89x and 6.54x, respectively. Leveraging these insights, we propose Dual Space RL (DSRL), a Policy Reincarnation strategy that initializes models with NSR-PreRL to expand the reasoning horizon before transitioning to standard RL for fine-grained optimization. Extensive experiments demonstrate that DSRL consistently outperforms strong baselines, proving that pre-train space pruning effectively steers the policy toward a refined correct reasoning subspace.

De P(y|x) para P(y): Investigando o Aprendizado por Reforço no Espaço de Pré-treinamento

From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

Resumo

Support