Valutazione di Metodi a Efficienza Parametrica per RLVR

Abstract

Valutiamo sistematicamente i metodi di Parameter-Efficient Fine-Tuning (PEFT) nell'ambito del paradigma di Reinforcement Learning with Verifiable Rewards (RLVR). RLVR incentiva i modelli linguistici a potenziare le proprie capacità di ragionamento attraverso feedback verificabili; tuttavia, sebbene metodi come LoRA siano comunemente utilizzati, l'architettura PEFT ottimale per RLVR rimane non identificata. In questo lavoro, conduciamo la prima valutazione completa di oltre 12 metodologie PEFT sulle famiglie di modelli DeepSeek-R1-Distill utilizzando benchmark di ragionamento matematico. I nostri risultati empirici mettono in discussione l'adozione predefinita del LoRA standard con tre principali evidenze. In primo luogo, dimostriamo che varianti strutturali, come DoRA, AdaLoRA e MiSS, superano costantemente LoRA. In secondo luogo, scopriamo un fenomeno di collasso spettrale nelle strategie di inizializzazione basate su SVD (ad es. PiSSA, MiLoRA), attribuendo il loro fallimento a un disallineamento fondamentale tra gli aggiornamenti delle componenti principali e l'ottimizzazione RL. Inoltre, i nostri studi di ablazione rivelano che una riduzione estrema dei parametri (ad es. VeRA, Rank-1) limita severamente la capacità di ragionamento. Condurre ulteriori studi di ablazione ed esperimenti di scaling per convalidare i nostri risultati. Questo lavoro fornisce una guida definitiva per sostenere una maggiore esplorazione dei metodi RL efficienti in termini di parametri.

English

We systematically evaluate Parameter-Efficient Fine-Tuning (PEFT) methods under the paradigm of Reinforcement Learning with Verifiable Rewards (RLVR). RLVR incentivizes language models to enhance their reasoning capabilities through verifiable feedback; however, while methods like LoRA are commonly used, the optimal PEFT architecture for RLVR remains unidentified. In this work, we conduct the first comprehensive evaluation of over 12 PEFT methodologies across the DeepSeek-R1-Distill families on mathematical reasoning benchmarks. Our empirical results challenge the default adoption of standard LoRA with three main findings. First, we demonstrate that structural variants, such as DoRA, AdaLoRA, and MiSS, consistently outperform LoRA. Second, we uncover a spectral collapse phenomenon in SVD-informed initialization strategies (e.g., PiSSA, MiLoRA), attributing their failure to a fundamental misalignment between principal-component updates and RL optimization. Furthermore, our ablations reveal that extreme parameter reduction (e.g., VeRA, Rank-1) severely bottlenecks reasoning capacity. We further conduct ablation studies and scaling experiments to validate our findings. This work provides a definitive guide for advocating for more exploration for parameter-efficient RL methods.

Valutazione di Metodi a Efficienza Parametrica per RLVR

Evaluating Parameter Efficient Methods for RLVR

Abstract

Support