택하지 않은 길: RLVR가 주된 경로를 벗어나 학습함을 증명하다
The Path Not Taken: RLVR Provably Learns Off the Principals
November 11, 2025
저자: Hanqing Zhu, Zhenyu Zhang, Hanxian Huang, DiJia Su, Zechun Liu, Jiawei Zhao, Igor Fedorov, Hamed Pirsiavash, Zhizhou Sha, Jinwon Lee, David Z. Pan, Zhangyang Wang, Yuandong Tian, Kai Sheng Tai
cs.AI
초록
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델의 추론 성능을 안정적으로 향상시키지만, 실제로 수정하는 매개변수는 극히 일부에 불과한 것으로 보입니다. 우리는 이러한 역설을 재검토하고 희소성이 모델 조건화 최적화 편향의 표면적 현상임을 밝혔습니다: 고정된 사전 학습 모델에 대해 업데이트는 일관적으로 선호되는 매개변수 영역에 국한되며, 이는 실행 간 높은 일관성을 보이고 데이터셋 및 RL 방법론에 크게 불변합니다. 우리는 이러한 역학을 '삼중 게이트 이론'으로 기계론적으로 설명합니다: 게이트 I(KL 앵커)은 KL 제약 업데이트를 부과하고, 게이트 II(모델 기하구조)는 업데이트 방향을 주축에서 벗어나 낮은 곡률과 스펙트럼을 보존하는 부분 공간으로 유도하며, 게이트 III(정밀도)는 비선호 영역의 미세 업데이트를 가려 주축 이탈 편향이 희소성으로 나타나게 합니다. 우리는 이 이론을 검증하고 RLVR의 학습 역학에 대한 최초의 매개변수 수준 특성을 제시합니다: RLVR는 가중치 공간에서 주축을 벗어난 방향으로 학습하며, 최소의 스펙트럼 변화, 감소된 주축 부분 공간 회전, 그리고 비주축 업데이트 정렬을 통해 성능 향상을 달성합니다. 이와 대조적으로, SFT(지도 미세 조정)는 주축 가중치를 대상으로 하여 스펙트럼을 왜곡시키며, 심지어 RLVR보다 뒤처지는 경우도 있습니다.
종합적으로, 이러한 결과는 RLVR의 훈련 역학에 대한 최초의 매개변수 공간 기반 설명을 제공하며, 매개변수가 진화하는 방식에 있어 명확한 규칙성을 드러냅니다. 무엇보다 중요한 것은, RL이 SFT와 구별되는 최적화 체제에서 운영된다는 점을 보여줌으로써, SFT 시대의 매개변수 효율적 미세 조정(PEFT) 방법들을 RLVR에 직접 적용하는 것은 결함이 있을 수 있음을 고급 희소 미세 조정 및 LoRA 변형에 대한 우리의 사례 연구를 통해 입증했습니다. 우리는 이 작업이 RLVR에 대한 백박스(white-box) 이해와 재활용된 SFT 시대의 경험적 방법이 아닌, 기하구조를 인지한 RLVR 전용 학습 알고리듬 설계로 나아가는 길을 열어가길 바랍니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) reliably improves the reasoning performance of large language models, yet it appears to modify only a small fraction of parameters. We revisit this paradox and show that sparsity is a surface artifact of a model-conditioned optimization bias: for a fixed pretrained model, updates consistently localize to preferred parameter regions, highly consistent across runs and largely invariant to datasets and RL recipes. We mechanistically explain these dynamics with a Three-Gate Theory: Gate I (KL Anchor) imposes a KL-constrained update; Gate II (Model Geometry) steers the step off principal directions into low-curvature, spectrum-preserving subspaces; and Gate III (Precision) hides micro-updates in non-preferred regions, making the off-principal bias appear as sparsity. We then validate this theory and, for the first time, provide a parameter-level characterization of RLVR's learning dynamics: RLVR learns off principal directions in weight space, achieving gains via minimal spectral drift, reduced principal-subspace rotation, and off-principal update alignment. In contrast, SFT targets principal weights, distorts the spectrum, and even lags RLVR.
Together, these results provide the first parameter-space account of RLVR's training dynamics, revealing clear regularities in how parameters evolve. Crucially, we show that RL operates in a distinct optimization regime from SFT, so directly adapting SFT-era parameter-efficient fine-tuning (PEFT) methods can be flawed, as evidenced by our case studies on advanced sparse fine-tuning and LoRA variants. We hope this work charts a path toward a white-box understanding of RLVR and the design of geometry-aware, RLVR-native learning algorithms, rather than repurposed SFT-era heuristics.