Avaliação de Métodos de Eficiência Paramétrica para RLVR

Resumo

Avaliamos sistematicamente os métodos de Fine-Tuning Eficiente em Parâmetros (PEFT) sob o paradigma de Aprendizagem por Reforço com Recompensas Verificáveis (RLVR). O RLVR incentiva os modelos de linguagem a aprimorar suas capacidades de raciocínio por meio de feedback verificável; no entanto, embora métodos como LoRA sejam comumente utilizados, a arquitetura PEFT ideal para o RLVR permanece não identificada. Neste trabalho, realizamos a primeira avaliação abrangente de mais de 12 metodologias PEFT nas famílias DeepSeek-R1-Distill em benchmarks de raciocínio matemático. Nossos resultados empíricos contestam a adoção padrão do LoRA padrão com três descobertas principais. Primeiro, demonstramos que variantes estruturais, como DoRA, AdaLoRA e MiSS, superam consistentemente o LoRA. Segundo, descobrimos um fenômeno de colapso espectral em estratégias de inicialização baseadas em SVD (por exemplo, PiSSA, MiLoRA), atribuindo sua falha a um desalinhamento fundamental entre atualizações de componentes principais e otimização por RL. Além disso, nossas ablações revelam que a redução extrema de parâmetros (por exemplo, VeRA, Rank-1) prejudica severamente a capacidade de raciocínio. Realizamos ainda estudos de ablação e experimentos de escalonamento para validar nossas descobertas. Este trabalho fornece um guia definitivo para defender uma maior exploração de métodos de RL eficientes em parâmetros.

English

We systematically evaluate Parameter-Efficient Fine-Tuning (PEFT) methods under the paradigm of Reinforcement Learning with Verifiable Rewards (RLVR). RLVR incentivizes language models to enhance their reasoning capabilities through verifiable feedback; however, while methods like LoRA are commonly used, the optimal PEFT architecture for RLVR remains unidentified. In this work, we conduct the first comprehensive evaluation of over 12 PEFT methodologies across the DeepSeek-R1-Distill families on mathematical reasoning benchmarks. Our empirical results challenge the default adoption of standard LoRA with three main findings. First, we demonstrate that structural variants, such as DoRA, AdaLoRA, and MiSS, consistently outperform LoRA. Second, we uncover a spectral collapse phenomenon in SVD-informed initialization strategies (e.g., PiSSA, MiLoRA), attributing their failure to a fundamental misalignment between principal-component updates and RL optimization. Furthermore, our ablations reveal that extreme parameter reduction (e.g., VeRA, Rank-1) severely bottlenecks reasoning capacity. We further conduct ablation studies and scaling experiments to validate our findings. This work provides a definitive guide for advocating for more exploration for parameter-efficient RL methods.