ChatPaper.aiChatPaper

Le Taux d'Apprentissage Compte : Un LoRA Basique Peut Suffire pour le Réglage Fin des LLM

Learning Rate Matters: Vanilla LoRA May Suffice for LLM Fine-tuning

February 4, 2026
papers.authors: Yu-Ang Lee, Ching-Yun Ko, Pin-Yu Chen, Mi-Yen Yeh
cs.AI

papers.abstract

L'adaptation à faible rang (LoRA) est l'approche prédominante pour le réglage fin efficace des grands modèles de langage (LLM). S'appuyant sur ce paradigme, des études récentes ont proposé des stratégies d'initialisation alternatives et des modifications architecturales, rapportant des améliorations substantielles par rapport à la méthode LoRA standard. Cependant, ces gains sont souvent démontrés dans des configurations d'hyperparamètres fixes ou faiblement optimisées, malgré la sensibilité connue des réseaux de neurones aux paramètres d'entraînement. Dans ce travail, nous réévaluons systématiquement quatre variantes représentatives de LoRA aux côtés de la méthode standard, via des recherches extensives sur les hyperparamètres. Sur des tâches de génération mathématique et de code, et pour différentes échelles de modèles, nous constatons que les différentes méthodes LoRA favorisent des plages de taux d'apprentissage distinctes. Fait crucial, une fois que les taux d'apprentissage sont correctement ajustés, toutes les méthodes atteignent des performances de pointe similaires (à 1-2 % près), ne présentant que des comportements subtils dépendants du rang. Ces résultats suggèrent que la méthode LoRA standard demeure une base de référence compétitive et que les améliorations rapportées sous une configuration d'entraînement unique pourraient ne pas refléter des avantages méthodologiques constants. Enfin, une analyse du second ordre attribue les différentes plages de taux d'apprentissage optimales à des variations de la plus grande valeur propre du Hessien, en accord avec les théories classiques de l'apprentissage.
English
Low-Rank Adaptation (LoRA) is the prevailing approach for efficient large language model (LLM) fine-tuning. Building on this paradigm, recent studies have proposed alternative initialization strategies and architectural modifications, reporting substantial improvements over vanilla LoRA. However, these gains are often demonstrated under fixed or narrowly tuned hyperparameter settings, despite the known sensitivity of neural networks to training configurations. In this work, we systematically re-evaluate four representative LoRA variants alongside vanilla LoRA through extensive hyperparameter searches. Across mathematical and code generation tasks on diverse model scales, we find that different LoRA methods favor distinct learning rate ranges. Crucially, once learning rates are properly tuned, all methods achieve similar peak performance (within 1-2%), with only subtle rank-dependent behaviors. These results suggest that vanilla LoRA remains a competitive baseline and that improvements reported under single training configuration may not reflect consistent methodological advantages. Finally, a second-order analysis attributes the differing optimal learning rate ranges to variations in the largest Hessian eigenvalue, aligning with classical learning theories.
PDF22February 7, 2026