De P(y|x) a P(y): Investigando el Aprendizaje por Refuerzo en el Espacio de Preentrenamiento

Resumen

Si bien el aprendizaje por refuerzo con recompensas verificables (RLVR) mejora significativamente el razonamiento de los LLM optimizando la distribución condicional P(y|x), su potencial está fundamentalmente limitado por la distribución de salida existente del modelo base. Optimizar la distribución marginal P(y) en el Espacio de Pre-entrenamiento aborda este cuello de botella al codificar la capacidad de razonamiento y preservar una amplia capacidad de exploración. Sin embargo, el pre-entrenamiento convencional se basa en corpus estáticos para un aprendizaje pasivo, lo que genera un cambio de distribución que dificulta la mejora específica del razonamiento. En este artículo, presentamos PreRL (RL en el Espacio de Pre-entrenamiento), que aplica actualizaciones en línea impulsadas por recompensas directamente a P(y). Validamos teórica y empíricamente el fuerte alineamiento de gradientes entre log P(y) y log P(y|x), estableciendo a PreRL como un sustituto viable del RL estándar. Además, descubrimos un mecanismo crítico: el Refuerzo por Muestras Negativas (NSR) dentro de PreRL actúa como un impulsor excepcionalmente efectivo para el razonamiento. NSR-PreRL poda rápidamente los espacios de razonamiento incorrectos mientras estimula comportamientos reflexivos endógenos, aumentando los pensamientos de transición y reflexión en 14.89x y 6.54x, respectivamente. Aprovechando estos hallazgos, proponemos Dual Space RL (DSRL), una estrategia de Reencarnación de Políticas que inicializa modelos con NSR-PreRL para expandir el horizonte de razonamiento antes de transicionar al RL estándar para una optimización de grano fino. Experimentos exhaustivos demuestran que DSRL supera consistentemente a líneas base sólidas, probando que la poda en el espacio de pre-entrenamiento dirige efectivamente la política hacia un subespacio refinado de razonamiento correcto.

English

While reinforcement learning with verifiable rewards (RLVR) significantly enhances LLM reasoning by optimizing the conditional distribution P(y|x), its potential is fundamentally bounded by the base model's existing output distribution. Optimizing the marginal distribution P(y) in the Pre-train Space addresses this bottleneck by encoding reasoning ability and preserving broad exploration capacity. Yet, conventional pre-training relies on static corpora for passive learning, leading to a distribution shift that hinders targeted reasoning enhancement. In this paper, we introduce PreRL (Pre-train Space RL), which applies reward-driven online updates directly to P(y). We theoretically and empirically validate the strong gradient alignment between log P(y) and log P(y|x), establishing PreRL as a viable surrogate for standard RL. Furthermore, we uncover a critical mechanism: Negative Sample Reinforcement (NSR) within PreRL serves as an exceptionally effective driver for reasoning. NSR-PreRL rapidly prunes incorrect reasoning spaces while stimulating endogenous reflective behaviors, increasing transition and reflection thoughts by 14.89x and 6.54x, respectively. Leveraging these insights, we propose Dual Space RL (DSRL), a Policy Reincarnation strategy that initializes models with NSR-PreRL to expand the reasoning horizon before transitioning to standard RL for fine-grained optimization. Extensive experiments demonstrate that DSRL consistently outperforms strong baselines, proving that pre-train space pruning effectively steers the policy toward a refined correct reasoning subspace.

De P(y|x) a P(y): Investigando el Aprendizaje por Refuerzo en el Espacio de Preentrenamiento

From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

Resumen

Support