De P(y|x) à P(y) : Exploration de l'apprentissage par renforcement dans l'espace de pré-entraînement

Résumé

Bien que l'apprentissage par renforcement avec récompenses vérifiables (RLVR) améliore significativement le raisonnement des LLM en optimisant la distribution conditionnelle P(y|x), son potentiel est fondamentalement limité par la distribution de sortie existante du modèle de base. L'optimisation de la distribution marginale P(y) dans l'Espace de Pré-entraînement résout ce goulot d'étranglement en encodant la capacité de raisonnement et en préservant une large capacité d'exploration. Pourtant, le pré-entraînement conventionnel repose sur des corpus statiques pour un apprentissage passif, conduisant à un décalage de distribution qui entrave l'amélioration ciblée du raisonnement. Dans cet article, nous introduisons PreRL (Pre-train Space RL), qui applique des mises à jour en ligne guidées par la récompense directement à P(y). Nous validons théoriquement et empiriquement le fort alignement des gradients entre log P(y) et log P(y|x), établissant PreRL comme un substitut viable au RL standard. De plus, nous découvrons un mécanisme critique : le Renforcement par Échantillons Négatifs (NSR) au sein de PreRL agit comme un moteur exceptionnellement efficace pour le raisonnement. NSR-PreRL élimine rapidement les espaces de raisonnement incorrects tout en stimulant des comportements réflexifs endogènes, augmentant respectivement les pensées de transition et de réflexion de 14,89x et 6,54x. En tirant parti de ces insights, nous proposons le Dual Space RL (DSRL), une stratégie de Réincarnation de Politique qui initialise les modèles avec NSR-PreRL pour élargir l'horizon de raisonnement avant de passer au RL standard pour une optimisation plus fine. Des expériences approfondies démontrent que DSRL surpasse constamment des bases de référence solides, prouvant que l'élagage dans l'espace de pré-entraînement oriente efficacement la politique vers un sous-espace raffiné de raisonnement correct.

English

While reinforcement learning with verifiable rewards (RLVR) significantly enhances LLM reasoning by optimizing the conditional distribution P(y|x), its potential is fundamentally bounded by the base model's existing output distribution. Optimizing the marginal distribution P(y) in the Pre-train Space addresses this bottleneck by encoding reasoning ability and preserving broad exploration capacity. Yet, conventional pre-training relies on static corpora for passive learning, leading to a distribution shift that hinders targeted reasoning enhancement. In this paper, we introduce PreRL (Pre-train Space RL), which applies reward-driven online updates directly to P(y). We theoretically and empirically validate the strong gradient alignment between log P(y) and log P(y|x), establishing PreRL as a viable surrogate for standard RL. Furthermore, we uncover a critical mechanism: Negative Sample Reinforcement (NSR) within PreRL serves as an exceptionally effective driver for reasoning. NSR-PreRL rapidly prunes incorrect reasoning spaces while stimulating endogenous reflective behaviors, increasing transition and reflection thoughts by 14.89x and 6.54x, respectively. Leveraging these insights, we propose Dual Space RL (DSRL), a Policy Reincarnation strategy that initializes models with NSR-PreRL to expand the reasoning horizon before transitioning to standard RL for fine-grained optimization. Extensive experiments demonstrate that DSRL consistently outperforms strong baselines, proving that pre-train space pruning effectively steers the policy toward a refined correct reasoning subspace.

De P(y|x) à P(y) : Exploration de l'apprentissage par renforcement dans l'espace de pré-entraînement

From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

Résumé

Support