ChatPaper.aiChatPaper

Van P(y|x) naar P(y): Onderzoek naar Reinforcement Learning in de Pre-train-ruimte

From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

April 15, 2026
Auteurs: Yuqiao Tan, Minzheng Wang, Bo Liu, Zichen Liu, Tian Liang, Shizhu He, Jun Zhao, Kang Liu
cs.AI

Samenvatting

Hoewel reinforcement learning met verifieerbare beloningen (RLVR) de redeneercapaciteit van LLM's aanzienlijk verbetert door de conditionele verdeling P(y|x) te optimaliseren, wordt het potentieel ervan fundamenteel begrensd door de bestaande uitvoerverdeling van het basismodel. Het optimaliseren van de marginale verdeling P(y) in de Pre-train-ruimte lost dit knelpunt op door redeneervermogen te coderen en een brede verkenningcapaciteit te behouden. Toch vertrouwt conventionele pre-training op statische corpora voor passief leren, wat leidt tot een verdelingverschuiving die gerichte verbetering van het redeneren belemmert. In dit artikel introduceren we PreRL (Pre-train Space RL), dat beloning-gestuurde online-updates rechtstreeks toepast op P(y). We valideren theoretisch en empirisch de sterke gradiëntafstemming tussen log P(y) en log P(y|x), waarmee we PreRL vestigen als een levensvatbare surrogaat voor standaard RL. Verder ontdekken we een cruciaal mechanisme: Negative Sample Reinforcement (NSR) binnen PreRL fungeert als een uitzonderlijk effectieve aanjager voor redeneren. NSR-PreRL snoeit snel incorrecte redeneerruimtes terug terwijl het endogeen reflectief gedrag stimuleert, wat transitie- en reflectiegedachten respectievelijk met 14,89x en 6,54x verhoogt. Gebruikmakend van deze inzichten stellen we Dual Space RL (DSRL) voor, een Policy Reincarnation-strategie die modellen initialiseert met NSR-PreRL om de redeneerhorizon te verbreden alvorens over te schakelen naar standaard RL voor fijnmazige optimalisatie. Uitgebreide experimenten tonen aan dat DSRL consistent sterke baseline-methoden overtreft, wat bewijst dat het terugdringen van de pre-train-ruimte het beleid effectief stuurt naar een verfijnde correcte redeneersubruimte.
English
While reinforcement learning with verifiable rewards (RLVR) significantly enhances LLM reasoning by optimizing the conditional distribution P(y|x), its potential is fundamentally bounded by the base model's existing output distribution. Optimizing the marginal distribution P(y) in the Pre-train Space addresses this bottleneck by encoding reasoning ability and preserving broad exploration capacity. Yet, conventional pre-training relies on static corpora for passive learning, leading to a distribution shift that hinders targeted reasoning enhancement. In this paper, we introduce PreRL (Pre-train Space RL), which applies reward-driven online updates directly to P(y). We theoretically and empirically validate the strong gradient alignment between log P(y) and log P(y|x), establishing PreRL as a viable surrogate for standard RL. Furthermore, we uncover a critical mechanism: Negative Sample Reinforcement (NSR) within PreRL serves as an exceptionally effective driver for reasoning. NSR-PreRL rapidly prunes incorrect reasoning spaces while stimulating endogenous reflective behaviors, increasing transition and reflection thoughts by 14.89x and 6.54x, respectively. Leveraging these insights, we propose Dual Space RL (DSRL), a Policy Reincarnation strategy that initializes models with NSR-PreRL to expand the reasoning horizon before transitioning to standard RL for fine-grained optimization. Extensive experiments demonstrate that DSRL consistently outperforms strong baselines, proving that pre-train space pruning effectively steers the policy toward a refined correct reasoning subspace.
PDF292April 26, 2026