ChatPaper.aiChatPaper

RLVRにおけるパラメータ効率化手法の評価

Evaluating Parameter Efficient Methods for RLVR

December 29, 2025
著者: Qingyu Yin, Yulun Wu, Zhennan Shen, Sunbowen Li, Zhilin Wang, Yanshu Li, Chak Tou Leong, Jiale Kang, Jinjin Gu
cs.AI

要旨

我々は、検証可能な報酬による強化学習(RLVR)の枠組みにおいて、パラメータ効率型ファインチューニング(PEFT)手法を体系的に評価する。RLVRは検証可能なフィードバックを通じて言語モデルの推論能力を向上させることを目的とするが、LoRAなどの手法が一般的に使用される一方で、RLVRにおける最適なPEFTアーキテクチャは未だ特定されていない。本研究では、数学的推論ベンチマークにおいて、DeepSeek-R1-Distillファミリを対象に12以上のPEFT手法について初めて包括的な評価を実施した。実証結果は、標準LoRAのデフォルト採用に疑問を投げかける3つの主要な知見を示している。第一に、DoRA、AdaLoRA、MiSSなどの構造的変種がLoRAを一貫して上回ることを実証する。第二に、SVDに基づく初期化戦略(PiSSA、MiLoRAなど)におけるスペクトル崩壊現象を明らかにし、その失敗要因を主成分更新とRL最適化の根本的な不整合に帰属させる。さらに、 ablation studyにより、極端なパラメータ削減(VeRA、Rank-1など)が推論能力を深刻に阻害することを解明した。追加で実施した ablation study とスケーリング実験により、これらの知見を検証している。本研究は、パラメータ効率型RL手法のさらなる探求を促進する確固たる指針を提供する。
English
We systematically evaluate Parameter-Efficient Fine-Tuning (PEFT) methods under the paradigm of Reinforcement Learning with Verifiable Rewards (RLVR). RLVR incentivizes language models to enhance their reasoning capabilities through verifiable feedback; however, while methods like LoRA are commonly used, the optimal PEFT architecture for RLVR remains unidentified. In this work, we conduct the first comprehensive evaluation of over 12 PEFT methodologies across the DeepSeek-R1-Distill families on mathematical reasoning benchmarks. Our empirical results challenge the default adoption of standard LoRA with three main findings. First, we demonstrate that structural variants, such as DoRA, AdaLoRA, and MiSS, consistently outperform LoRA. Second, we uncover a spectral collapse phenomenon in SVD-informed initialization strategies (e.g., PiSSA, MiLoRA), attributing their failure to a fundamental misalignment between principal-component updates and RL optimization. Furthermore, our ablations reveal that extreme parameter reduction (e.g., VeRA, Rank-1) severely bottlenecks reasoning capacity. We further conduct ablation studies and scaling experiments to validate our findings. This work provides a definitive guide for advocating for more exploration for parameter-efficient RL methods.
PDF51January 1, 2026