ChatPaper.aiChatPaper

RLVR를 위한 매개변수 효율적 방법 평가

Evaluating Parameter Efficient Methods for RLVR

December 29, 2025
저자: Qingyu Yin, Yulun Wu, Zhennan Shen, Sunbowen Li, Zhilin Wang, Yanshu Li, Chak Tou Leong, Jiale Kang, Jinjin Gu
cs.AI

초록

우리는 검증 가능한 보상 강화학습(RLVR) 패러다임 하에서 매개변수 효율적 미세 조정(PEFT) 방법들을 체계적으로 평가한다. RLVR는 검증 가능한 피드백을 통해 언어 모델의 추론 능력을 향상시키도록 유도하지만, LoRA와 같은 방법이 일반적으로 사용됨에도 RLVR에 최적화된 PEFT 아키텍처는 아직 규명되지 않았다. 본 연구에서는 수학적 추론 벤치마크에서 DeepSeek-R1-Distill 모델군을 대상으로 12개 이상의 PEFT 방법론에 대한 첫 종합 평가를 수행한다. 우리의 실험 결과는 표준 LoRA의 기본 채택에 세 가지 주요 발견으로 의문을 제기한다. 첫째, DoRA, AdaLoRA, MiSS와 같은 구조적 변형이 LoRA를 지속적으로 능가함을 입증한다. 둘째, SVD 기반 초기화 전략(예: PiSSA, MiLoRA)에서 스펙트럼 붕괴 현상을 발견하며, 이들의 실패 원인을 주성분 갱신과 RL 최적화 간의 근본적 불일치로 규명한다. 또한, ablation 연구를 통해 극단적 매개변수 감소(예: VeRA, Rank-1)가 추론 능력을 심각하게 저하시킴을 밝힌다. 우리는 추가로 ablation 연구 및 규모 확장 실험을 통해 이러한 발견을 검증한다. 본 연구는 매개변수 효율적 RL 방법에 대한 보다 적극적 탐구의 필요성을 제시하는 결정적 지침을 제공한다.
English
We systematically evaluate Parameter-Efficient Fine-Tuning (PEFT) methods under the paradigm of Reinforcement Learning with Verifiable Rewards (RLVR). RLVR incentivizes language models to enhance their reasoning capabilities through verifiable feedback; however, while methods like LoRA are commonly used, the optimal PEFT architecture for RLVR remains unidentified. In this work, we conduct the first comprehensive evaluation of over 12 PEFT methodologies across the DeepSeek-R1-Distill families on mathematical reasoning benchmarks. Our empirical results challenge the default adoption of standard LoRA with three main findings. First, we demonstrate that structural variants, such as DoRA, AdaLoRA, and MiSS, consistently outperform LoRA. Second, we uncover a spectral collapse phenomenon in SVD-informed initialization strategies (e.g., PiSSA, MiLoRA), attributing their failure to a fundamental misalignment between principal-component updates and RL optimization. Furthermore, our ablations reveal that extreme parameter reduction (e.g., VeRA, Rank-1) severely bottlenecks reasoning capacity. We further conduct ablation studies and scaling experiments to validate our findings. This work provides a definitive guide for advocating for more exploration for parameter-efficient RL methods.
PDF51January 1, 2026