Il sentiero non intrapreso: RLVR impara in modo dimostrabile al di fuori dei principi

Abstract

L'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) migliora in modo affidabile le prestazioni di ragionamento dei grandi modelli linguistici, eppure sembra modificare solo una piccola frazione dei parametri. Riconsideriamo questo paradosso e dimostriamo che la sparsità è un artefatto superficiale di un bias di ottimizzazione condizionato dal modello: per un modello preaddestrato fisso, gli aggiornamenti si localizzano in modo coerente in regioni di parametri preferite, altamente consistenti tra diverse esecuzioni e in gran parte invarianti rispetto ai dataset e alle ricette di RL. Spieghiamo meccanicamente queste dinamiche con una Teoria dei Tre Cancelli: il Cancello I (Ancora KL) impone un aggiornamento vincolato dalla KL; il Cancello II (Geometria del Modello) indirizza il passo lontano dalle direzioni principali verso sottospazi a bassa curvatura che preservano lo spettro; e il Cancello III (Precisione) nasconde micro-aggiornamenti nelle regioni non preferite, facendo apparire il bias off-principale come sparsità. Validiamo quindi questa teoria e, per la prima volta, forniamo una caratterizzazione a livello parametrico delle dinamiche di apprendimento del RLVR: il RLVR apprende lontano dalle direzioni principali nello spazio dei pesi, ottenendo guadagni attraverso una deriva spettrale minima, una ridotta rotazione del sottospazio principale e un allineamento degli aggiornamenti off-principali. Al contrario, il Fine-Tuning Supervisionato (SFT) mira ai pesi principali, distorce lo spettro e persino rimane indietro rispetto al RLVR. Insieme, questi risultati forniscono la prima descrizione nello spazio dei parametri delle dinamiche di addestramento del RLVR, rivelando chiare regolarità nell'evoluzione dei parametri. Crucialmente, dimostriamo che l'RL opera in un regime di ottimizzazione distinto dall'SFT, quindi adattare direttamente i metodi di fine-tuning efficiente nei parametri (PEFT) dell'era SFT può essere fallace, come evidenziato dai nostri casi di studio sul fine-tuning sparso avanzato e sulle varianti LoRA. Speriamo che questo lavoro tracci un percorso verso una comprensione in white-box del RLVR e verso la progettazione di algoritmi di apprendimento nativi per il RLVR e consapevoli della geometria, piuttosto che il riutilizzo di euristiche dell'era SFT.

English

Reinforcement Learning with Verifiable Rewards (RLVR) reliably improves the reasoning performance of large language models, yet it appears to modify only a small fraction of parameters. We revisit this paradox and show that sparsity is a surface artifact of a model-conditioned optimization bias: for a fixed pretrained model, updates consistently localize to preferred parameter regions, highly consistent across runs and largely invariant to datasets and RL recipes. We mechanistically explain these dynamics with a Three-Gate Theory: Gate I (KL Anchor) imposes a KL-constrained update; Gate II (Model Geometry) steers the step off principal directions into low-curvature, spectrum-preserving subspaces; and Gate III (Precision) hides micro-updates in non-preferred regions, making the off-principal bias appear as sparsity. We then validate this theory and, for the first time, provide a parameter-level characterization of RLVR's learning dynamics: RLVR learns off principal directions in weight space, achieving gains via minimal spectral drift, reduced principal-subspace rotation, and off-principal update alignment. In contrast, SFT targets principal weights, distorts the spectrum, and even lags RLVR. Together, these results provide the first parameter-space account of RLVR's training dynamics, revealing clear regularities in how parameters evolve. Crucially, we show that RL operates in a distinct optimization regime from SFT, so directly adapting SFT-era parameter-efficient fine-tuning (PEFT) methods can be flawed, as evidenced by our case studies on advanced sparse fine-tuning and LoRA variants. We hope this work charts a path toward a white-box understanding of RLVR and the design of geometry-aware, RLVR-native learning algorithms, rather than repurposed SFT-era heuristics.

Il sentiero non intrapreso: RLVR impara in modo dimostrabile al di fuori dei principi

The Path Not Taken: RLVR Provably Learns Off the Principals

Abstract

Support