Leertempo Doet Er Toe: Standaard LoRA Kan Volstaan voor Fijnafstemming van LLM's
Learning Rate Matters: Vanilla LoRA May Suffice for LLM Fine-tuning
February 4, 2026
Auteurs: Yu-Ang Lee, Ching-Yun Ko, Pin-Yu Chen, Mi-Yen Yeh
cs.AI
Samenvatting
Low-Rank Adaptation (LoRA) is de gangbare aanpak voor efficiënte fine-tuning van grote taalmmodellen (LLM's). Voortbouwend op dit paradigma hebben recente studies alternatieve initialisatiestrategieën en architectuurwijzigingen voorgesteld, waarbij aanzienlijke verbeteringen ten opzichte van standaard LoRA worden gerapporteerd. Deze verbeteringen worden echter vaak aangetoond onder vaste of nauw afgestelde hyperparameterinstellingen, ondanks de bekende gevoeligheid van neurale netwerken voor trainingsconfiguraties. In dit werk evalueren we vier representatieve LoRA-varianten systematisch opnieuw, naast standaard LoRA, via uitgebreide hyperparameterzoektochten. Over wiskundige en codeergeneratietaken heen, op diverse modelschalen, constateren we dat verschillende LoRA-methoden verschillende leercurvebereiken prefereren. Cruciaal is dat, zodra de leercurves goed zijn afgesteld, alle methoden vergelijkbare piekprestaties bereiken (binnen 1-2%), met alleen subtiele rangafhankelijke gedragingen. Deze resultaten suggereren dat standaard LoRA een competitieve baseline blijft en dat verbeteringen die onder een enkele trainingsconfiguratie worden gerapporteerd, mogelijk geen consistente methodologische voordelen weerspiegelen. Ten slotte wijt een tweedegraadsanalyse de verschillende optimale leercurvebereiken aan variaties in de grootste Hessiaanse eigenwaarde, in lijn met klassieke leertheorieën.
English
Low-Rank Adaptation (LoRA) is the prevailing approach for efficient large language model (LLM) fine-tuning. Building on this paradigm, recent studies have proposed alternative initialization strategies and architectural modifications, reporting substantial improvements over vanilla LoRA. However, these gains are often demonstrated under fixed or narrowly tuned hyperparameter settings, despite the known sensitivity of neural networks to training configurations. In this work, we systematically re-evaluate four representative LoRA variants alongside vanilla LoRA through extensive hyperparameter searches. Across mathematical and code generation tasks on diverse model scales, we find that different LoRA methods favor distinct learning rate ranges. Crucially, once learning rates are properly tuned, all methods achieve similar peak performance (within 1-2%), with only subtle rank-dependent behaviors. These results suggest that vanilla LoRA remains a competitive baseline and that improvements reported under single training configuration may not reflect consistent methodological advantages. Finally, a second-order analysis attributes the differing optimal learning rate ranges to variations in the largest Hessian eigenvalue, aligning with classical learning theories.