Da P(y|x) a P(y): Esplorando l'Apprendimento per Rinforzo nello Spazio di Pre-addestramento

Abstract

Mentre l'apprendimento per rinforzo con ricompense verificabili (RLVR) migliora significativamente il ragionamento dei modelli linguistici di grandi dimensioni (LLM) ottimizzando la distribuzione condizionata P(y|x), il suo potenziale è fondamentalmente limitato dalla distribuzione di output esistente del modello base. L'ottimizzazione della distribuzione marginale P(y) nello Spazio di Pre-addestramento affronta questo collo di bottiglia codificando l'abilità di ragionamento e preservando un'ampia capacità di esplorazione. Tuttavia, il pre-addestramento convenzionale si affida a corpora statici per un apprendimento passivo, portando a uno spostamento della distribuzione che ostacola il potenziamento mirato del ragionamento. In questo articolo, introduciamo PreRL (Pre-train Space RL), che applica aggiornamenti online guidati da ricompense direttamente a P(y). Convalidiamo teoricamente ed empiricamente il forte allineamento del gradiente tra log P(y) e log P(y|x), stabilendo PreRL come un surrogato valido per l'RL standard. Inoltre, scopriamo un meccanismo critico: il Rinforzo tramite Campioni Negativi (NSR) all'interno di PreRL funge da motore eccezionalmente efficace per il ragionamento. NSR-PreRL pota rapidamente gli spazi di ragionamento errati stimolando al contempo comportamenti riflessivi endogeni, aumentando rispettivamente i pensieri di transizione e riflessione di 14,89x e 6,54x. Sfruttando queste intuizioni, proponiamo Dual Space RL (DSRL), una strategia di Reincarnazione della Politica che inizializza i modelli con NSR-PreRL per espandere l'orizzonte del ragionamento prima di passare all'RL standard per un'ottimizzazione granulare. Esperimenti estensivi dimostrano che DSRL supera costantemente baseline solide, provando che la potatura nello spazio di pre-addestramento indirizza efficacemente la politica verso un sottospazio raffinato di ragionamento corretto.

English

While reinforcement learning with verifiable rewards (RLVR) significantly enhances LLM reasoning by optimizing the conditional distribution P(y|x), its potential is fundamentally bounded by the base model's existing output distribution. Optimizing the marginal distribution P(y) in the Pre-train Space addresses this bottleneck by encoding reasoning ability and preserving broad exploration capacity. Yet, conventional pre-training relies on static corpora for passive learning, leading to a distribution shift that hinders targeted reasoning enhancement. In this paper, we introduce PreRL (Pre-train Space RL), which applies reward-driven online updates directly to P(y). We theoretically and empirically validate the strong gradient alignment between log P(y) and log P(y|x), establishing PreRL as a viable surrogate for standard RL. Furthermore, we uncover a critical mechanism: Negative Sample Reinforcement (NSR) within PreRL serves as an exceptionally effective driver for reasoning. NSR-PreRL rapidly prunes incorrect reasoning spaces while stimulating endogenous reflective behaviors, increasing transition and reflection thoughts by 14.89x and 6.54x, respectively. Leveraging these insights, we propose Dual Space RL (DSRL), a Policy Reincarnation strategy that initializes models with NSR-PreRL to expand the reasoning horizon before transitioning to standard RL for fine-grained optimization. Extensive experiments demonstrate that DSRL consistently outperforms strong baselines, proving that pre-train space pruning effectively steers the policy toward a refined correct reasoning subspace.

Da P(y|x) a P(y): Esplorando l'Apprendimento per Rinforzo nello Spazio di Pre-addestramento

From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

Abstract

Support