학습률의 중요성: LLM 미세 조정에는 기본 LoRA로 충분할 수 있다
Learning Rate Matters: Vanilla LoRA May Suffice for LLM Fine-tuning
February 4, 2026
저자: Yu-Ang Lee, Ching-Yun Ko, Pin-Yu Chen, Mi-Yen Yeh
cs.AI
초록
로우 랭크 적응(LoRA)은 효율적인 대규모 언어 모델(LLM) 미세 조정을 위한 주류 접근법입니다. 이러한 패러다임을 기반으로, 최근 연구에서는 대체 초기화 전략과 구조적 수정을 제안하며 기본 LoRA 대비 상당한 성능 향상을 보고하고 있습니다. 그러나 신경망이 훈련 설정에 민감하다는 점이 잘 알려져 있음에도 불구하고, 이러한 성능 향상은 고정되거나 제한적으로 조정된 하이퍼파라미터 설정 하에서 주로 입증되었습니다. 본 연구에서는 대표적인 4가지 LoRA 변형 방법을 기본 LoRA와 함께 체계적으로 재평가하며 광범위한 하이퍼파라미터 탐색을 수행합니다. 다양한 모델 규모의 수학 및 코드 생성 과제 전반에 걸쳐, 서로 다른 LoRA 방법이 각기 다른 학습률 범위에서 최적의 성능을 보인다는 사실을 발견했습니다. 중요한 것은 학습률이 적절하게 조정되면 모든 방법이 유사한 최고 성능(1-2% 이내 차이)을 달성하며, 랭크에 따른 미세한 행동 차이만 존재한다는 점입니다. 이러한 결과는 기본 LoRA가 여전히 경쟁력 있는 기준선이며, 단일 훈련 설정 하에서 보고된 성능 향상이 일관된 방법론적 우위를 반영하지 않을 수 있음을 시사합니다. 마지막으로, 2차 분석을 통해 최적 학습률 범위의 차이가 가장 큰 헤시안 고유값의 변동에서 기인함을 확인하였으며, 이는 기존 학습 이론과 일치합니다.
English
Low-Rank Adaptation (LoRA) is the prevailing approach for efficient large language model (LLM) fine-tuning. Building on this paradigm, recent studies have proposed alternative initialization strategies and architectural modifications, reporting substantial improvements over vanilla LoRA. However, these gains are often demonstrated under fixed or narrowly tuned hyperparameter settings, despite the known sensitivity of neural networks to training configurations. In this work, we systematically re-evaluate four representative LoRA variants alongside vanilla LoRA through extensive hyperparameter searches. Across mathematical and code generation tasks on diverse model scales, we find that different LoRA methods favor distinct learning rate ranges. Crucially, once learning rates are properly tuned, all methods achieve similar peak performance (within 1-2%), with only subtle rank-dependent behaviors. These results suggest that vanilla LoRA remains a competitive baseline and that improvements reported under single training configuration may not reflect consistent methodological advantages. Finally, a second-order analysis attributes the differing optimal learning rate ranges to variations in the largest Hessian eigenvalue, aligning with classical learning theories.