ChatPaper.aiChatPaper

Der nicht eingeschlagene Weg: RLVR lernt nachweislich abseits der Hauptkomponenten

The Path Not Taken: RLVR Provably Learns Off the Principals

November 11, 2025
papers.authors: Hanqing Zhu, Zhenyu Zhang, Hanxian Huang, DiJia Su, Zechun Liu, Jiawei Zhao, Igor Fedorov, Hamed Pirsiavash, Zhizhou Sha, Jinwon Lee, David Z. Pan, Zhangyang Wang, Yuandong Tian, Kai Sheng Tai
cs.AI

papers.abstract

Reinforcement Learning with Verifiable Rewards (RLVR) verbessert die Reasoning-Leistung großer Sprachmodelle zuverlässig, scheint jedoch nur einen kleinen Teil der Parameter zu verändern. Wir untersuchen dieses Paradoxon erneut und zeigen, dass die Sparsity ein oberflächliches Artefakt eines modellkonditionierten Optimierungs-Bias ist: Für ein festes vortrainiertes Modell lokalisieren sich Updates konsistent in bevorzugten Parameterregionen, die hochgradig konsistent über verschiedene Durchläufe und weitgehend invariant gegenüber Datensätzen und RL-Methoden sind. Wir erklären diese Dynamik mechanistisch mit einer Drei-Tore-Theorie: Tor I (KL-Anchor) erzwingt ein KL-beschränktes Update; Tor II (Modellgeometrie) lenkt den Schritt von den Hauptrichtungen in Unterräume mit geringer Krümmung, die das Spektrum erhalten; und Tor III (Präzision) verbirgt Mikro-Updates in nicht-bevorzugten Regionen, wodurch der Bias weg von den Hauptrichtungen als Sparsity erscheint. Wir validieren diese Theorie und liefern erstmals eine characterisierung der Lern dynamik von RLVR auf Parameter ebene: RLVR lernt abseits der Hauptrichtungen im Gewichtsraum und erzielt Gewinne durch minimale Spektralverschiebung, reduzierte Rotation im Hauptunterraum und Ausrichtung der Updates außerhalb der Hauptrichtungen. Im Gegensatz dazu zielt SFT auf die Hauptgewichte ab, verzerrt das Spektrum und liegt sogar hinter RLVR zurück. Zusammen bieten diese Ergebnisse die erste Beschreibung der Trainingsdynamik von RLVR im Parameterraum und enthüllen klare Regelmäßigkeiten in der Parameterentwicklung. Entscheidend ist, dass wir zeigen, dass RL in einem distincten Optimierungsregime gegenüber SFT operiert. Daher kann die direkte Anwendung von Parameter-effizienten Feinjustierungsmethoden (PEFT) aus der SFT-Ära fehlerhaft sein, wie unsere Fallstudien zu fortschrittlicher sparser Feinjustierung und LoRA-Varianten belegen. Wir hoffen, dass diese Arbeit einen Weg zu einem White-Box-Verständnis von RLVR und zum Design geometrie bewusster, RLVR-nativer Lernalgorithmen ebnet, anstatt auf Heuristiken aus der SFT-Ära zurückzugreifen.
English
Reinforcement Learning with Verifiable Rewards (RLVR) reliably improves the reasoning performance of large language models, yet it appears to modify only a small fraction of parameters. We revisit this paradox and show that sparsity is a surface artifact of a model-conditioned optimization bias: for a fixed pretrained model, updates consistently localize to preferred parameter regions, highly consistent across runs and largely invariant to datasets and RL recipes. We mechanistically explain these dynamics with a Three-Gate Theory: Gate I (KL Anchor) imposes a KL-constrained update; Gate II (Model Geometry) steers the step off principal directions into low-curvature, spectrum-preserving subspaces; and Gate III (Precision) hides micro-updates in non-preferred regions, making the off-principal bias appear as sparsity. We then validate this theory and, for the first time, provide a parameter-level characterization of RLVR's learning dynamics: RLVR learns off principal directions in weight space, achieving gains via minimal spectral drift, reduced principal-subspace rotation, and off-principal update alignment. In contrast, SFT targets principal weights, distorts the spectrum, and even lags RLVR. Together, these results provide the first parameter-space account of RLVR's training dynamics, revealing clear regularities in how parameters evolve. Crucially, we show that RL operates in a distinct optimization regime from SFT, so directly adapting SFT-era parameter-efficient fine-tuning (PEFT) methods can be flawed, as evidenced by our case studies on advanced sparse fine-tuning and LoRA variants. We hope this work charts a path toward a white-box understanding of RLVR and the design of geometry-aware, RLVR-native learning algorithms, rather than repurposed SFT-era heuristics.
PDF312December 2, 2025