取られざる道:RLVRは原理から逸脱して学習することを証明する
The Path Not Taken: RLVR Provably Learns Off the Principals
November 11, 2025
著者: Hanqing Zhu, Zhenyu Zhang, Hanxian Huang, DiJia Su, Zechun Liu, Jiawei Zhao, Igor Fedorov, Hamed Pirsiavash, Zhizhou Sha, Jinwon Lee, David Z. Pan, Zhangyang Wang, Yuandong Tian, Kai Sheng Tai
cs.AI
要旨
検証可能な報酬による強化学習(RLVR)は大規模言語モデルの推論性能を確実に向上させるが、ごく一部のパラメータのみが変更されているように見える。このパラドックスを再検討し、スパース性がモデル条件付き最適化バイアスの表面的な痕跡であることを示す:固定された事前学習モデルにおいて、更新は一貫して優先されるパラメータ領域に局在し、これは実行間で高度に一貫し、データセットやRL手法にほぼ不変である。我々はこれらの力学を「三つのゲート理論」で機構的に説明する:ゲートI(KLアンカー)はKL制約付き更新を課し、ゲートII(モデル幾何)は更新ステップを主方向から低曲率・スペクトル保存的な部分空間へ誘導し、ゲートIII(精度)は非優先領域での微細な更新を隠蔽し、主方向外バイアスをスパース性として見せかける。次にこの理論を検証し、RLVRの学習力学に関する初のパラメータレベルでの特性評価を提供する:RLVRは重み空間において主方向から外れて学習し、最小限のスペクトル変動、主部分空間回転の抑制、主方向外更新の整合性を通じて性能向上を達成する。対照的にSFTは主重みを標的とし、スペクトルを歪め、RLVRにすら劣る場合がある。
これらの結果は合わせて、RLVRの訓練力学に関する初のパラメータ空間での説明を提供し、パラメータがどのように進化するかにおける明確な規則性を明らかにする。決定的に、RLがSFTとは異なる最適化体制で動作することを示し、SFT時代のパラメータ効率型ファインチューニング(PEFT)手法を直接適用することが欠陥を生じうることを、先進的スパースファインチューニングやLoRA変種に関する事例研究で実証する。本論文が、RLVRのホワイトボックス理解と、SFT時代のヒューリスティックの流用ではなく、幾何学を考慮したRLVR本来の学習アルゴリズム設計への道筋を示すことを期待する。
English
Reinforcement Learning with Verifiable Rewards (RLVR) reliably improves the reasoning performance of large language models, yet it appears to modify only a small fraction of parameters. We revisit this paradox and show that sparsity is a surface artifact of a model-conditioned optimization bias: for a fixed pretrained model, updates consistently localize to preferred parameter regions, highly consistent across runs and largely invariant to datasets and RL recipes. We mechanistically explain these dynamics with a Three-Gate Theory: Gate I (KL Anchor) imposes a KL-constrained update; Gate II (Model Geometry) steers the step off principal directions into low-curvature, spectrum-preserving subspaces; and Gate III (Precision) hides micro-updates in non-preferred regions, making the off-principal bias appear as sparsity. We then validate this theory and, for the first time, provide a parameter-level characterization of RLVR's learning dynamics: RLVR learns off principal directions in weight space, achieving gains via minimal spectral drift, reduced principal-subspace rotation, and off-principal update alignment. In contrast, SFT targets principal weights, distorts the spectrum, and even lags RLVR.
Together, these results provide the first parameter-space account of RLVR's training dynamics, revealing clear regularities in how parameters evolve. Crucially, we show that RL operates in a distinct optimization regime from SFT, so directly adapting SFT-era parameter-efficient fine-tuning (PEFT) methods can be flawed, as evidenced by our case studies on advanced sparse fine-tuning and LoRA variants. We hope this work charts a path toward a white-box understanding of RLVR and the design of geometry-aware, RLVR-native learning algorithms, rather than repurposed SFT-era heuristics.