ChatPaper.aiChatPaper

Évaluation des méthodes à paramètres efficaces pour RLVR

Evaluating Parameter Efficient Methods for RLVR

December 29, 2025
papers.authors: Qingyu Yin, Yulun Wu, Zhennan Shen, Sunbowen Li, Zhilin Wang, Yanshu Li, Chak Tou Leong, Jiale Kang, Jinjin Gu
cs.AI

papers.abstract

Nous évaluons systématiquement les méthodes de réglage fin paramétriquement efficace (PEFT) dans le paradigme de l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Le RLVR incite les modèles de langage à améliorer leurs capacités de raisonnement grâce à un retour vérifiable ; cependant, bien que des méthodes comme LoRA soient couramment utilisées, l'architecture PEFT optimale pour le RLVR reste à identifier. Dans ce travail, nous menons la première évaluation complète de plus de 12 méthodologies PEFT sur les familles de modèles DeepSeek-R1-Distill, à l'aide de benchmarks de raisonnement mathématique. Nos résultats empiriques remettent en question l'adoption par défaut de LoRA standard, avec trois conclusions principales. Premièrement, nous démontrons que des variantes structurelles, telles que DoRA, AdaLoRA et MiSS, surpassent systématiquement LoRA. Deuxièmement, nous mettons en évidence un phénomène d'effondrement spectral dans les stratégies d'initialisation informées par SVD (par exemple, PiSSA, MiLoRA), attribuant leur échec à un désalignement fondamental entre les mises à jour par composantes principales et l'optimisation par renforcement. De plus, nos études d'ablation révèlent qu'une réduction paramétrique extrême (par exemple, VeRA, Rang-1) limite sévèrement la capacité de raisonnement. Nous menons en outre des études d'ablation et des expériences de mise à l'échelle pour valider nos conclusions. Ce travail fournit un guide définitif pour plaider en faveur d'une exploration accrue des méthodes de RL paramétriquement efficaces.
English
We systematically evaluate Parameter-Efficient Fine-Tuning (PEFT) methods under the paradigm of Reinforcement Learning with Verifiable Rewards (RLVR). RLVR incentivizes language models to enhance their reasoning capabilities through verifiable feedback; however, while methods like LoRA are commonly used, the optimal PEFT architecture for RLVR remains unidentified. In this work, we conduct the first comprehensive evaluation of over 12 PEFT methodologies across the DeepSeek-R1-Distill families on mathematical reasoning benchmarks. Our empirical results challenge the default adoption of standard LoRA with three main findings. First, we demonstrate that structural variants, such as DoRA, AdaLoRA, and MiSS, consistently outperform LoRA. Second, we uncover a spectral collapse phenomenon in SVD-informed initialization strategies (e.g., PiSSA, MiLoRA), attributing their failure to a fundamental misalignment between principal-component updates and RL optimization. Furthermore, our ablations reveal that extreme parameter reduction (e.g., VeRA, Rank-1) severely bottlenecks reasoning capacity. We further conduct ablation studies and scaling experiments to validate our findings. This work provides a definitive guide for advocating for more exploration for parameter-efficient RL methods.
PDF51January 1, 2026