Lernrate ist entscheidend: Herkömmliches LoRA könnte für das Feinabstimmen von LLMs ausreichen
Learning Rate Matters: Vanilla LoRA May Suffice for LLM Fine-tuning
February 4, 2026
papers.authors: Yu-Ang Lee, Ching-Yun Ko, Pin-Yu Chen, Mi-Yen Yeh
cs.AI
papers.abstract
Low-Rank Adaptation (LoRA) ist der vorherrschende Ansatz für effizientes Feintuning großer Sprachmodelle (LLMs). Aufbauend auf diesem Paradigma haben neuere Studien alternative Initialisierungsstrategien und architektonische Modifikationen vorgeschlagen, die über die Standard-LoRA-Methode (vanilla LoRA) hinaus erhebliche Verbesserungen berichten. Diese Verbesserungen werden jedoch häufig unter festen oder nur eingeschränkt optimierten Hyperparametereinstellungen demonstriert, obwohl die bekannte Empfindlichkeit neuronaler Netze gegenüber Trainingskonfigurationen besteht. In dieser Arbeit evaluieren wir vier repräsentative LoRA-Varianten systematisch neben der Standard-LoRA-Methode neu, basierend auf umfangreichen Hyperparametersuchen. Über mathematische Aufgaben und Code-Generierung hinweg und bei verschiedenen Modellgrößen stellen wir fest, dass verschiedene LoRA-Methoden unterschiedliche Lernratenbereiche bevorzugen. Entscheidend ist, dass sobald die Lernraten angemessen optimiert sind, alle Methoden eine ähnliche Spitzenleistung (innerhalb von 1-2 %) erreichen, mit nur subtilen, vom Rang abhängigen Verhaltensunterschieden. Diese Ergebnisse legen nahe, dass die Standard-LoRA-Methode eine wettbewerbsfähige Baseline bleibt und dass unter einer einzigen Trainingskonfiguration berichtete Verbesserungen nicht unbedingt konsistente methodische Vorteile widerspiegeln. Eine Analyse zweiter Ordnung führt die unterschiedlichen optimalen Lernratenbereiche schließlich auf Variationen des größten Hessian-Eigenwerts zurück, was mit klassischen Lerntheorien übereinstimmt.
English
Low-Rank Adaptation (LoRA) is the prevailing approach for efficient large language model (LLM) fine-tuning. Building on this paradigm, recent studies have proposed alternative initialization strategies and architectural modifications, reporting substantial improvements over vanilla LoRA. However, these gains are often demonstrated under fixed or narrowly tuned hyperparameter settings, despite the known sensitivity of neural networks to training configurations. In this work, we systematically re-evaluate four representative LoRA variants alongside vanilla LoRA through extensive hyperparameter searches. Across mathematical and code generation tasks on diverse model scales, we find that different LoRA methods favor distinct learning rate ranges. Crucially, once learning rates are properly tuned, all methods achieve similar peak performance (within 1-2%), with only subtle rank-dependent behaviors. These results suggest that vanilla LoRA remains a competitive baseline and that improvements reported under single training configuration may not reflect consistent methodological advantages. Finally, a second-order analysis attributes the differing optimal learning rate ranges to variations in the largest Hessian eigenvalue, aligning with classical learning theories.