ChatPaper.aiChatPaper

Неизбранный путь: RLVR гарантированно обучается вне принципов

The Path Not Taken: RLVR Provably Learns Off the Principals

November 11, 2025
Авторы: Hanqing Zhu, Zhenyu Zhang, Hanxian Huang, DiJia Su, Zechun Liu, Jiawei Zhao, Igor Fedorov, Hamed Pirsiavash, Zhizhou Sha, Jinwon Lee, David Z. Pan, Zhangyang Wang, Yuandong Tian, Kai Sheng Tai
cs.AI

Аннотация

Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) надежно улучшает способность больших языковых моделей к рассуждениям, однако при этом модифицирует, по-видимому, лишь небольшую долю параметров. Мы вновь обращаемся к этому парадоксу и показываем, что разреженность является поверхностным артефактом оптимизационного смещения, обусловленного моделью: для фиксированной предобученной модели обновления последовательно локализуются в предпочтительных областях параметров, демонстрируя высокую согласованность между запусками и значительную инвариантность к наборам данных и методам RL. Мы механистически объясняем эту динамику с помощью Теории Трех Врат: Врата I (KL-Якорь) накладывают KL-ограниченное обновление; Врата II (Геометрия Модели) направляют шаг от главных направлений в подпространства с низкой кривизной, сохраняющие спектр; а Врата III (Точность) скрывают микро-обновления в непредпочтительных областях, из-за чего смещение вне главных направлений проявляется как разреженность. Затем мы проверяем эту теорию и впервые даем параметрическое описание динамики обучения RLVR: RLVR обучается вне главных направлений в пространстве весов, достигая улучшений за счет минимального спектрального сдвига, снижения вращения в главном подпространстве и выравнивания обновлений вне главных направлений. В противоположность этому, SFT нацеливается на главные веса, искажает спектр и даже отстает от RLVR. В совокупности эти результаты дают первое параметрическое описание динамики обучения RLVR, выявляя четкие закономерности в эволюции параметров. Ключевым образом мы показываем, что RL функционирует в отличном от SFT режиме оптимизации, поэтому прямое применение методов параметрически-эффективного тонкого обучения (PEFT) из эпохи SFT может быть ошибочным, что демонстрируют наши case-исследования продвинутого разреженного тонкого обучения и вариантов LoRA. Мы надеемся, что данная работа прокладывает путь к прозрачному пониманию RLVR и проектированию учитывающих геометрию, нативных для RLVR алгоритмов обучения, вместо перепрофилирования эвристик из эпохи SFT.
English
Reinforcement Learning with Verifiable Rewards (RLVR) reliably improves the reasoning performance of large language models, yet it appears to modify only a small fraction of parameters. We revisit this paradox and show that sparsity is a surface artifact of a model-conditioned optimization bias: for a fixed pretrained model, updates consistently localize to preferred parameter regions, highly consistent across runs and largely invariant to datasets and RL recipes. We mechanistically explain these dynamics with a Three-Gate Theory: Gate I (KL Anchor) imposes a KL-constrained update; Gate II (Model Geometry) steers the step off principal directions into low-curvature, spectrum-preserving subspaces; and Gate III (Precision) hides micro-updates in non-preferred regions, making the off-principal bias appear as sparsity. We then validate this theory and, for the first time, provide a parameter-level characterization of RLVR's learning dynamics: RLVR learns off principal directions in weight space, achieving gains via minimal spectral drift, reduced principal-subspace rotation, and off-principal update alignment. In contrast, SFT targets principal weights, distorts the spectrum, and even lags RLVR. Together, these results provide the first parameter-space account of RLVR's training dynamics, revealing clear regularities in how parameters evolve. Crucially, we show that RL operates in a distinct optimization regime from SFT, so directly adapting SFT-era parameter-efficient fine-tuning (PEFT) methods can be flawed, as evidenced by our case studies on advanced sparse fine-tuning and LoRA variants. We hope this work charts a path toward a white-box understanding of RLVR and the design of geometry-aware, RLVR-native learning algorithms, rather than repurposed SFT-era heuristics.
PDF312December 2, 2025