Het pad niet genomen: RLVR leert aantoonbaar buiten de principes om

Samenvatting

Versterkend Leren met Verifieerbare Beloningen (RLVR) verbetert de redeneerprestaties van grote taalmodellem betrouwbaar, maar lijkt slechts een kleine fractie parameters te wijzigen. Wij herbezien deze paradox en tonen aan dat sparseïteit een oppervlakkig artefact is van een model-geconditioneerde optimalisatiebias: voor een vast voorgetraind model, localiseren updates zich consistent tot geprefereerde parameterregio's, die sterk consistent zijn over verschillende runs en grotendeels onveranderlijk voor datasets en RL-recepten. Wij verklaren deze dynamiek mechanistisch met een Drie-Poorten Theorie: Poort I (KL-Anker) legt een KL-beperkte update op; Poort II (Modelgeometrie) stuurt de stap weg van principale richtingen naar subspaces met lage kromming die het spectrum behouden; en Poort III (Precisie) verbergt micro-updates in niet-geprefereerde regio's, waardoor de bias weg van de principale richtingen eruitziet als sparseïteit. Vervolgens valideren wij deze theorie en geven voor het eerst een karakterisering op parameterniveau van RLVR's leer dynamiek: RLVR leert weg van de principale richtingen in de gewichtsruimte, behaalt winst via minimale spectrale verschuiving, gereduceerde rotatie in de principale subspace en uitlijning van updates buiten de principale richtingen. Daarentegen richt SFT zich op principale gewichten, vervormt het spectrum en blijft zelfs achter bij RLVR. Samen bieden deze resultaten de eerste verklaring in de parameterruimte van RLVR's trainingsdynamiek, en onthullen duidelijke regelmatigheden in hoe parameters evolueren. Cruciaal is dat wij aantonen dat RL opereert in een distinct optimalisatieregime vergeleken met SFT, waardoor het direct aanpassen van parameter-efficiënte fine-tuningmethoden (PEFT) uit het SFT-tijdperk gebrekkig kan zijn, zoals blijkt uit onze casestudies over geavanceerde sparse fine-tuning en LoRA-varianten. Wij hopen dat dit werk een pad uitstippelt naar een inzicht in RLVR als een open boek en het ontwerp van geometrie-bewuste, voor RLVR inherente leer algoritmen, in plaats van hergebruikte heuristieken uit het SFT-tijdperk.

English

Reinforcement Learning with Verifiable Rewards (RLVR) reliably improves the reasoning performance of large language models, yet it appears to modify only a small fraction of parameters. We revisit this paradox and show that sparsity is a surface artifact of a model-conditioned optimization bias: for a fixed pretrained model, updates consistently localize to preferred parameter regions, highly consistent across runs and largely invariant to datasets and RL recipes. We mechanistically explain these dynamics with a Three-Gate Theory: Gate I (KL Anchor) imposes a KL-constrained update; Gate II (Model Geometry) steers the step off principal directions into low-curvature, spectrum-preserving subspaces; and Gate III (Precision) hides micro-updates in non-preferred regions, making the off-principal bias appear as sparsity. We then validate this theory and, for the first time, provide a parameter-level characterization of RLVR's learning dynamics: RLVR learns off principal directions in weight space, achieving gains via minimal spectral drift, reduced principal-subspace rotation, and off-principal update alignment. In contrast, SFT targets principal weights, distorts the spectrum, and even lags RLVR. Together, these results provide the first parameter-space account of RLVR's training dynamics, revealing clear regularities in how parameters evolve. Crucially, we show that RL operates in a distinct optimization regime from SFT, so directly adapting SFT-era parameter-efficient fine-tuning (PEFT) methods can be flawed, as evidenced by our case studies on advanced sparse fine-tuning and LoRA variants. We hope this work charts a path toward a white-box understanding of RLVR and the design of geometry-aware, RLVR-native learning algorithms, rather than repurposed SFT-era heuristics.

Het pad niet genomen: RLVR leert aantoonbaar buiten de principes om

The Path Not Taken: RLVR Provably Learns Off the Principals

Samenvatting

Support