Von P(y|x) zu P(y): Untersuchung von Reinforcement Learning im Vortrainierungsraum
From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space
April 15, 2026
Autoren: Yuqiao Tan, Minzheng Wang, Bo Liu, Zichen Liu, Tian Liang, Shizhu He, Jun Zhao, Kang Liu
cs.AI
Zusammenfassung
Während verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) das Reasoning von LLMs durch Optimierung der bedingten Verteilung P(y|x) erheblich verbessert, ist sein Potenzial grundlegend durch die bestehende Ausgabeverteilung des Basismodells begrenzt. Die Optimierung der marginalen Verteilung P(y) im Vortrainierungsraum adressiert diesen Engpass, indem sie Reasoning-Fähigkeiten kodiert und breite Explorationskapazitäten bewahrt. Dennoch stützt sich konventionelles Vortraining auf statische Korpora für passives Lernen, was zu einer Verteilungsverschiebung führt, die eine zielgerichtete Reasoning-Verbesserung behindert. In dieser Arbeit führen wir PreRL (Pre-train Space RL) ein, das belohnungsgesteuerte Online-Updates direkt auf P(y) anwendet. Wir validieren theoretisch und empirisch die starke Gradientenausrichtung zwischen log P(y) und log P(y|x) und etablieren PreRL damit als praktikable Alternative zu standardmäßigem RL. Darüber hinaus entschlüsseln wir einen kritischen Mechanismus: Negative Sample Reinforcement (NSR) innerhalb von PreRL dient als außerordentlich effektiver Treiber für Reasoning. NSR-PreRL beschneidet schnell falsche Reasoning-Räume und stimuliert gleichzeitig endogene Reflektionsprozesse, was Transitions- und Reflektionsgedanken um das 14,89-fache bzw. 6,54-fache steigert. Gestützt auf diese Erkenntnisse schlagen wir Dual Space RL (DSRL) vor, eine Policy-Reincarnation-Strategie, die Modelle mit NSR-PreRL initialisiert, um den Reasoning-Horizont zu erweitern, bevor zu standardmäßigem RL für feinkörnige Optimierung übergegangen wird. Umfangreiche Experimente zeigen, dass DSRL durchgängig starke Baseline-Methoden übertrifft und beweist, dass das Beschneiden im Vortrainierungsraum die Policy effektiv in einen verfeinerten korrekten Reasoning-Teilraum lenkt.
English
While reinforcement learning with verifiable rewards (RLVR) significantly enhances LLM reasoning by optimizing the conditional distribution P(y|x), its potential is fundamentally bounded by the base model's existing output distribution. Optimizing the marginal distribution P(y) in the Pre-train Space addresses this bottleneck by encoding reasoning ability and preserving broad exploration capacity. Yet, conventional pre-training relies on static corpora for passive learning, leading to a distribution shift that hinders targeted reasoning enhancement. In this paper, we introduce PreRL (Pre-train Space RL), which applies reward-driven online updates directly to P(y). We theoretically and empirically validate the strong gradient alignment between log P(y) and log P(y|x), establishing PreRL as a viable surrogate for standard RL. Furthermore, we uncover a critical mechanism: Negative Sample Reinforcement (NSR) within PreRL serves as an exceptionally effective driver for reasoning. NSR-PreRL rapidly prunes incorrect reasoning spaces while stimulating endogenous reflective behaviors, increasing transition and reflection thoughts by 14.89x and 6.54x, respectively. Leveraging these insights, we propose Dual Space RL (DSRL), a Policy Reincarnation strategy that initializes models with NSR-PreRL to expand the reasoning horizon before transitioning to standard RL for fine-grained optimization. Extensive experiments demonstrate that DSRL consistently outperforms strong baselines, proving that pre-train space pruning effectively steers the policy toward a refined correct reasoning subspace.