Von P(y|x) zu P(y): Untersuchung von Reinforcement Learning im Vortrainierungsraum

Zusammenfassung

Während verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) das Reasoning von LLMs durch Optimierung der bedingten Verteilung P(y|x) erheblich verbessert, ist sein Potenzial grundlegend durch die bestehende Ausgabeverteilung des Basismodells begrenzt. Die Optimierung der marginalen Verteilung P(y) im Vortrainierungsraum adressiert diesen Engpass, indem sie Reasoning-Fähigkeiten kodiert und breite Explorationskapazitäten bewahrt. Dennoch stützt sich konventionelles Vortraining auf statische Korpora für passives Lernen, was zu einer Verteilungsverschiebung führt, die eine zielgerichtete Reasoning-Verbesserung behindert. In dieser Arbeit führen wir PreRL (Pre-train Space RL) ein, das belohnungsgesteuerte Online-Updates direkt auf P(y) anwendet. Wir validieren theoretisch und empirisch die starke Gradientenausrichtung zwischen log P(y) und log P(y|x) und etablieren PreRL damit als praktikable Alternative zu standardmäßigem RL. Darüber hinaus entschlüsseln wir einen kritischen Mechanismus: Negative Sample Reinforcement (NSR) innerhalb von PreRL dient als außerordentlich effektiver Treiber für Reasoning. NSR-PreRL beschneidet schnell falsche Reasoning-Räume und stimuliert gleichzeitig endogene Reflektionsprozesse, was Transitions- und Reflektionsgedanken um das 14,89-fache bzw. 6,54-fache steigert. Gestützt auf diese Erkenntnisse schlagen wir Dual Space RL (DSRL) vor, eine Policy-Reincarnation-Strategie, die Modelle mit NSR-PreRL initialisiert, um den Reasoning-Horizont zu erweitern, bevor zu standardmäßigem RL für feinkörnige Optimierung übergegangen wird. Umfangreiche Experimente zeigen, dass DSRL durchgängig starke Baseline-Methoden übertrifft und beweist, dass das Beschneiden im Vortrainierungsraum die Policy effektiv in einen verfeinerten korrekten Reasoning-Teilraum lenkt.

English

While reinforcement learning with verifiable rewards (RLVR) significantly enhances LLM reasoning by optimizing the conditional distribution P(y|x), its potential is fundamentally bounded by the base model's existing output distribution. Optimizing the marginal distribution P(y) in the Pre-train Space addresses this bottleneck by encoding reasoning ability and preserving broad exploration capacity. Yet, conventional pre-training relies on static corpora for passive learning, leading to a distribution shift that hinders targeted reasoning enhancement. In this paper, we introduce PreRL (Pre-train Space RL), which applies reward-driven online updates directly to P(y). We theoretically and empirically validate the strong gradient alignment between log P(y) and log P(y|x), establishing PreRL as a viable surrogate for standard RL. Furthermore, we uncover a critical mechanism: Negative Sample Reinforcement (NSR) within PreRL serves as an exceptionally effective driver for reasoning. NSR-PreRL rapidly prunes incorrect reasoning spaces while stimulating endogenous reflective behaviors, increasing transition and reflection thoughts by 14.89x and 6.54x, respectively. Leveraging these insights, we propose Dual Space RL (DSRL), a Policy Reincarnation strategy that initializes models with NSR-PreRL to expand the reasoning horizon before transitioning to standard RL for fine-grained optimization. Extensive experiments demonstrate that DSRL consistently outperforms strong baselines, proving that pre-train space pruning effectively steers the policy toward a refined correct reasoning subspace.

Von P(y|x) zu P(y): Untersuchung von Reinforcement Learning im Vortrainierungsraum

From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

Zusammenfassung

Support