ChatPaper.aiChatPaper

Evaluatie van parameter-efficiënte methoden voor RLVR

Evaluating Parameter Efficient Methods for RLVR

December 29, 2025
Auteurs: Qingyu Yin, Yulun Wu, Zhennan Shen, Sunbowen Li, Zhilin Wang, Yanshu Li, Chak Tou Leong, Jiale Kang, Jinjin Gu
cs.AI

Samenvatting

Wij evalueren systematisch Parameter-Efficiënte Fine-Tuning (PEFT) methoden binnen het paradigma van Reinforcement Learning met Verifieerbare Beloningen (RLVR). RLVR stimuleert taalmodellen om hun redeneervermogen te verbeteren door middel van verifieerbare feedback; echter, hoewel methoden zoals LoRA algemeen gebruikt worden, blijft de optimale PEFT-architectuur voor RLVR onbekend. In dit werk voeren we de eerste uitgebreide evaluatie uit van meer dan 12 PEFT-methodologieën op de DeepSeek-R1-Distill families op wiskundige redeneerbenchmarks. Onze empirische resultaten dagen de standaardtoepassing van standaard LoRA uit met drie hoofdbevindingen. Ten eerste tonen we aan dat structurele varianten, zoals DoRA, AdaLoRA en MiSS, consistent beter presteren dan LoRA. Ten tweede leggen we een spectrale ineenstortingsfenomeen bloot in SVD-geïnformeerde initialisatiestrategieën (bijv. PiSSA, MiLoRA), waarbij we hun falen toeschrijven aan een fundamentele misalignering tussen principal-component-updates en RL-optimalisatie. Verder onthullen onze ablatiestudies dat extreme parameterreductie (bijv. VeRA, Rank-1) het redeneervermogen ernstig beperkt. Wij voeren verder ablatiestudies en schaalexperimenten uit om onze bevindingen te valideren. Dit werk biedt een definitieve richtlijn om te pleiten voor meer exploratie van parameter-efficiënte RL-methoden.
English
We systematically evaluate Parameter-Efficient Fine-Tuning (PEFT) methods under the paradigm of Reinforcement Learning with Verifiable Rewards (RLVR). RLVR incentivizes language models to enhance their reasoning capabilities through verifiable feedback; however, while methods like LoRA are commonly used, the optimal PEFT architecture for RLVR remains unidentified. In this work, we conduct the first comprehensive evaluation of over 12 PEFT methodologies across the DeepSeek-R1-Distill families on mathematical reasoning benchmarks. Our empirical results challenge the default adoption of standard LoRA with three main findings. First, we demonstrate that structural variants, such as DoRA, AdaLoRA, and MiSS, consistently outperform LoRA. Second, we uncover a spectral collapse phenomenon in SVD-informed initialization strategies (e.g., PiSSA, MiLoRA), attributing their failure to a fundamental misalignment between principal-component updates and RL optimization. Furthermore, our ablations reveal that extreme parameter reduction (e.g., VeRA, Rank-1) severely bottlenecks reasoning capacity. We further conduct ablation studies and scaling experiments to validate our findings. This work provides a definitive guide for advocating for more exploration for parameter-efficient RL methods.
PDF51January 1, 2026