Evaluación de Métodos Eficientes en Parámetros para RLVR
Evaluating Parameter Efficient Methods for RLVR
December 29, 2025
Autores: Qingyu Yin, Yulun Wu, Zhennan Shen, Sunbowen Li, Zhilin Wang, Yanshu Li, Chak Tou Leong, Jiale Kang, Jinjin Gu
cs.AI
Resumen
Evaluamos sistemáticamente los métodos de ajuste fino eficiente en parámetros (PEFT) bajo el paradigma de Aprendizaje por Refuerzo con Recompensas Verificables (RLVR). RLVR incentiva a los modelos de lenguaje a mejorar sus capacidades de razonamiento mediante retroalimentación verificable; sin embargo, aunque métodos como LoRA son de uso común, la arquitectura PEFT óptima para RLVR permanece sin identificar. En este trabajo, realizamos la primera evaluación exhaustiva de más de 12 metodologías PEFT en las familias DeepSeek-R1-Distill utilizando benchmarks de razonamiento matemático. Nuestros resultados empíricos desafían la adopción por defecto del LoRA estándar con tres hallazgos principales. Primero, demostramos que variantes estructurales, como DoRA, AdaLoRA y MiSS, superan consistentemente a LoRA. Segundo, descubrimos un fenómeno de colapso espectral en las estrategias de inicialización basadas en SVD (por ejemplo, PiSSA, MiLoRA), atribuyendo su fallo a una desalineación fundamental entre las actualizaciones de componentes principales y la optimización por RL. Además, nuestras ablaciones revelan que la reducción extrema de parámetros (por ejemplo, VeRA, Rango-1) perjudica severamente la capacidad de razonamiento. Realizamos además estudios de ablación y experimentos de escalado para validar nuestros hallazgos. Este trabajo proporciona una guía definitiva para abogar por una mayor exploración de los métodos de RL eficientes en parámetros.
English
We systematically evaluate Parameter-Efficient Fine-Tuning (PEFT) methods under the paradigm of Reinforcement Learning with Verifiable Rewards (RLVR). RLVR incentivizes language models to enhance their reasoning capabilities through verifiable feedback; however, while methods like LoRA are commonly used, the optimal PEFT architecture for RLVR remains unidentified. In this work, we conduct the first comprehensive evaluation of over 12 PEFT methodologies across the DeepSeek-R1-Distill families on mathematical reasoning benchmarks. Our empirical results challenge the default adoption of standard LoRA with three main findings. First, we demonstrate that structural variants, such as DoRA, AdaLoRA, and MiSS, consistently outperform LoRA. Second, we uncover a spectral collapse phenomenon in SVD-informed initialization strategies (e.g., PiSSA, MiLoRA), attributing their failure to a fundamental misalignment between principal-component updates and RL optimization. Furthermore, our ablations reveal that extreme parameter reduction (e.g., VeRA, Rank-1) severely bottlenecks reasoning capacity. We further conduct ablation studies and scaling experiments to validate our findings. This work provides a definitive guide for advocating for more exploration for parameter-efficient RL methods.