Van P(y|x) naar P(y): Onderzoek naar Reinforcement Learning in de Pre-train-ruimte

Samenvatting

Hoewel reinforcement learning met verifieerbare beloningen (RLVR) de redeneercapaciteit van LLM's aanzienlijk verbetert door de conditionele verdeling P(y|x) te optimaliseren, wordt het potentieel ervan fundamenteel begrensd door de bestaande uitvoerverdeling van het basismodel. Het optimaliseren van de marginale verdeling P(y) in de Pre-train-ruimte lost dit knelpunt op door redeneervermogen te coderen en een brede verkenningcapaciteit te behouden. Toch vertrouwt conventionele pre-training op statische corpora voor passief leren, wat leidt tot een verdelingverschuiving die gerichte verbetering van het redeneren belemmert. In dit artikel introduceren we PreRL (Pre-train Space RL), dat beloning-gestuurde online-updates rechtstreeks toepast op P(y). We valideren theoretisch en empirisch de sterke gradiëntafstemming tussen log P(y) en log P(y|x), waarmee we PreRL vestigen als een levensvatbare surrogaat voor standaard RL. Verder ontdekken we een cruciaal mechanisme: Negative Sample Reinforcement (NSR) binnen PreRL fungeert als een uitzonderlijk effectieve aanjager voor redeneren. NSR-PreRL snoeit snel incorrecte redeneerruimtes terug terwijl het endogeen reflectief gedrag stimuleert, wat transitie- en reflectiegedachten respectievelijk met 14,89x en 6,54x verhoogt. Gebruikmakend van deze inzichten stellen we Dual Space RL (DSRL) voor, een Policy Reincarnation-strategie die modellen initialiseert met NSR-PreRL om de redeneerhorizon te verbreden alvorens over te schakelen naar standaard RL voor fijnmazige optimalisatie. Uitgebreide experimenten tonen aan dat DSRL consistent sterke baseline-methoden overtreft, wat bewijst dat het terugdringen van de pre-train-ruimte het beleid effectief stuurt naar een verfijnde correcte redeneersubruimte.

English

While reinforcement learning with verifiable rewards (RLVR) significantly enhances LLM reasoning by optimizing the conditional distribution P(y|x), its potential is fundamentally bounded by the base model's existing output distribution. Optimizing the marginal distribution P(y) in the Pre-train Space addresses this bottleneck by encoding reasoning ability and preserving broad exploration capacity. Yet, conventional pre-training relies on static corpora for passive learning, leading to a distribution shift that hinders targeted reasoning enhancement. In this paper, we introduce PreRL (Pre-train Space RL), which applies reward-driven online updates directly to P(y). We theoretically and empirically validate the strong gradient alignment between log P(y) and log P(y|x), establishing PreRL as a viable surrogate for standard RL. Furthermore, we uncover a critical mechanism: Negative Sample Reinforcement (NSR) within PreRL serves as an exceptionally effective driver for reasoning. NSR-PreRL rapidly prunes incorrect reasoning spaces while stimulating endogenous reflective behaviors, increasing transition and reflection thoughts by 14.89x and 6.54x, respectively. Leveraging these insights, we propose Dual Space RL (DSRL), a Policy Reincarnation strategy that initializes models with NSR-PreRL to expand the reasoning horizon before transitioning to standard RL for fine-grained optimization. Extensive experiments demonstrate that DSRL consistently outperforms strong baselines, proving that pre-train space pruning effectively steers the policy toward a refined correct reasoning subspace.

Van P(y|x) naar P(y): Onderzoek naar Reinforcement Learning in de Pre-train-ruimte

From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

Samenvatting

Support