学習率の重要性:LLMファインチューニングには単純なLoRAで十分な可能性
Learning Rate Matters: Vanilla LoRA May Suffice for LLM Fine-tuning
February 4, 2026
著者: Yu-Ang Lee, Ching-Yun Ko, Pin-Yu Chen, Mi-Yen Yeh
cs.AI
要旨
Low-Rank Adaptation (LoRA) は、大規模言語モデル (LLM) の効率的なファインチューニングにおける主流の手法である。このパラダイムを発展させ、近年の研究では代替的な初期化戦略や構造的変更が提案され、標準的なLoRAを上回る大幅な改善が報告されている。しかし、ニューラルネットワークの学習設定に対する感度が既知であるにもかかわらず、これらの改善は、固定された、あるいは限定的に調整されたハイパーパラメータ設定下で実証されることが多い。本研究では、代表的な4つのLoRA変種法を標準的なLoRAとともに、広範なハイパーパラメータ探索を通して系統的に再評価する。様々なモデル規模における数学的タスクとコード生成タスクにおいて、異なるLoRA手法はそれぞれ異なる学習率の範囲を好むことを明らかにする。決定的に重要なのは、学習率が適切に調整されれば、すべての手法が同様のピーク性能(1-2%以内の差)を達成し、ランク依存の振る舞いの差異は僅かであることだ。これらの結果は、標準的なLoRAが依然として競争力のあるベースラインであり、単一の学習設定下で報告される改善は、一貫した手法上の優位性を反映していない可能性を示唆する。最後に、二次の解析により、最適学習率範囲の差異は最大ヘッセ行列固有値の変動に起因することが明らかとなり、古典的な学習理論と一致する。
English
Low-Rank Adaptation (LoRA) is the prevailing approach for efficient large language model (LLM) fine-tuning. Building on this paradigm, recent studies have proposed alternative initialization strategies and architectural modifications, reporting substantial improvements over vanilla LoRA. However, these gains are often demonstrated under fixed or narrowly tuned hyperparameter settings, despite the known sensitivity of neural networks to training configurations. In this work, we systematically re-evaluate four representative LoRA variants alongside vanilla LoRA through extensive hyperparameter searches. Across mathematical and code generation tasks on diverse model scales, we find that different LoRA methods favor distinct learning rate ranges. Crucially, once learning rates are properly tuned, all methods achieve similar peak performance (within 1-2%), with only subtle rank-dependent behaviors. These results suggest that vanilla LoRA remains a competitive baseline and that improvements reported under single training configuration may not reflect consistent methodological advantages. Finally, a second-order analysis attributes the differing optimal learning rate ranges to variations in the largest Hessian eigenvalue, aligning with classical learning theories.