Bewertung parameter-effizienter Methoden für RLVR
Evaluating Parameter Efficient Methods for RLVR
December 29, 2025
papers.authors: Qingyu Yin, Yulun Wu, Zhennan Shen, Sunbowen Li, Zhilin Wang, Yanshu Li, Chak Tou Leong, Jiale Kang, Jinjin Gu
cs.AI
papers.abstract
Wir evaluieren systematisch Parameter-Efficient Fine-Tuning (PEFT)-Methoden unter dem Paradigma von Reinforcement Learning with Verifiable Rewards (RLVR). RLVR motiviert Sprachmodelle, ihre Fähigkeiten zum logischen Schlussfolgern durch überprüfbares Feedback zu verbessern; jedoch bleibt die optimale PEFT-Architektur für RLVR ungeklärt, obwohl Methoden wie LoRA häufig verwendet werden. In dieser Arbeit führen wir die erste umfassende Evaluation von über 12 PEFT-Methoden anhand der DeepSeek-R1-Distill-Modellfamilien auf mathematischen Reasoning-Benchmarks durch. Unsere empirischen Ergebnisse stellen die standardmäßige Verwendung von klassischem LoRA infrage und liefern drei Haupterkenntnisse. Erstens zeigen wir, dass strukturelle Varianten wie DoRA, AdaLoRA und MiSS durchweg besser abschneiden als LoRA. Zweitens decken wir ein Spektralkollaps-Phänomen bei SVD-informierten Initialisierungsstrategien (z.B. PiSSA, MiLoRA) auf und führen deren Versagen auf eine grundlegende Fehlausrichtung zwischen Principal-Component-Updates und RL-Optimierung zurück. Des Weiteren zeigen unsere Ablationstudien, dass extreme Parameterreduktion (z.B. VeRA, Rank-1) die Reasoning-Fähigkeit stark einschränkt. Wir führen zusätzlich Ablationsstudien und Skalierungsexperimente durch, um unsere Erkenntnisse zu validieren. Diese Arbeit liefert eine wegweisende Handlungsempfehlung für die Notwendigkeit weiterer Erforschung parameter-effizienter RL-Methoden.
English
We systematically evaluate Parameter-Efficient Fine-Tuning (PEFT) methods under the paradigm of Reinforcement Learning with Verifiable Rewards (RLVR). RLVR incentivizes language models to enhance their reasoning capabilities through verifiable feedback; however, while methods like LoRA are commonly used, the optimal PEFT architecture for RLVR remains unidentified. In this work, we conduct the first comprehensive evaluation of over 12 PEFT methodologies across the DeepSeek-R1-Distill families on mathematical reasoning benchmarks. Our empirical results challenge the default adoption of standard LoRA with three main findings. First, we demonstrate that structural variants, such as DoRA, AdaLoRA, and MiSS, consistently outperform LoRA. Second, we uncover a spectral collapse phenomenon in SVD-informed initialization strategies (e.g., PiSSA, MiLoRA), attributing their failure to a fundamental misalignment between principal-component updates and RL optimization. Furthermore, our ablations reveal that extreme parameter reduction (e.g., VeRA, Rank-1) severely bottlenecks reasoning capacity. We further conduct ablation studies and scaling experiments to validate our findings. This work provides a definitive guide for advocating for more exploration for parameter-efficient RL methods.