ChatPaper.aiChatPaper

Оценка методов параметрической эффективности для RLVR

Evaluating Parameter Efficient Methods for RLVR

December 29, 2025
Авторы: Qingyu Yin, Yulun Wu, Zhennan Shen, Sunbowen Li, Zhilin Wang, Yanshu Li, Chak Tou Leong, Jiale Kang, Jinjin Gu
cs.AI

Аннотация

Мы проводим систематическую оценку методов параметрически-эффективного тонкого обучения (PEFT) в рамках парадигмы обучения с подкреплением с верифицируемыми вознаграждениями (RLVR). RLVR стимулирует языковые модели повышать свои способности к рассуждению с помощью верифицируемой обратной связи; однако, хотя такие методы, как LoRA, широко используются, оптимальная архитектура PEFT для RLVR остается неопределенной. В данной работе мы проводим первое всестороннее сравнение более 12 методологий PEFT на семействах моделей DeepSeek-R1-Distill с использованием математических бенчмарков для оценки рассуждений. Наши эмпирические результаты ставят под сомнение стандартное применение обычной LoRA и приводят к трем основным выводам. Во-первых, мы показываем, что структурные варианты, такие как DoRA, AdaLoRA и MiSS, последовательно превосходят LoRA. Во-вторых, мы выявляем феномен спектрального коллапса в стратегиях инициализации на основе SVD (например, PiSSA, MiLoRA), объясняя их неудачу фундаментальным несоответствием между обновлениями по главным компонентам и RL-оптимизацией. Кроме того, наши ablation-исследования показывают, что экстремальное сокращение параметров (например, VeRA, Rank-1) серьезно ограничивает способность к рассуждению. Мы также проводим ablation-исследования и эксперименты по масштабированию для подтверждения наших выводов. Данная работа предоставляет четкое руководство, advocating за более активное исследование параметрически-эффективных методов для RL.
English
We systematically evaluate Parameter-Efficient Fine-Tuning (PEFT) methods under the paradigm of Reinforcement Learning with Verifiable Rewards (RLVR). RLVR incentivizes language models to enhance their reasoning capabilities through verifiable feedback; however, while methods like LoRA are commonly used, the optimal PEFT architecture for RLVR remains unidentified. In this work, we conduct the first comprehensive evaluation of over 12 PEFT methodologies across the DeepSeek-R1-Distill families on mathematical reasoning benchmarks. Our empirical results challenge the default adoption of standard LoRA with three main findings. First, we demonstrate that structural variants, such as DoRA, AdaLoRA, and MiSS, consistently outperform LoRA. Second, we uncover a spectral collapse phenomenon in SVD-informed initialization strategies (e.g., PiSSA, MiLoRA), attributing their failure to a fundamental misalignment between principal-component updates and RL optimization. Furthermore, our ablations reveal that extreme parameter reduction (e.g., VeRA, Rank-1) severely bottlenecks reasoning capacity. We further conduct ablation studies and scaling experiments to validate our findings. This work provides a definitive guide for advocating for more exploration for parameter-efficient RL methods.
PDF51January 1, 2026