L'Importanza del Tasso di Apprendimento: Una Semplice LoRA Può Bastare per il Fine-Tuning dei Modelli Linguistici

Abstract

La Low-Rank Adaptation (LoRA) è l'approccio predominante per il fine-tuning efficiente di grandi modelli linguistici (LLM). Sulla base di questo paradigma, studi recenti hanno proposto strategie di inizializzazione alternative e modifiche architetturali, riportando miglioramenti sostanziali rispetto alla LoRA standard. Tuttavia, questi vantaggi sono spesso dimostrati in contesti di iperparametri fissi o ottimizzati in modo limitato, nonostante la nota sensibilità delle reti neurali alle configurazioni di addestramento. In questo lavoro, rivalutiamo sistematicamente quattro varianti rappresentative di LoRA insieme alla LoRA standard attraverso ricerche estensive sugli iperparametri. Attraverso task di generazione matematica e di codice su diverse scale di modelli, scopriamo che i diversi metodi LoRA favoriscono intervalli di learning rate distinti. Fondamentalmente, una volta che il learning rate viene regolato correttamente, tutti i metodi raggiungono prestazioni di picco simili (entro l'1-2%), mostrando solo comportamenti sottili dipendenti dal rango. Questi risultati suggeriscono che la LoRA standard rimane una baseline competitiva e che i miglioramenti riportati sotto una singola configurazione di addestramento potrebbero non riflettere vantaggi metodologici consistenti. Infine, un'analisi del secondo ordine attribuisce le diverse gamme ottimali di learning rate a variazioni nel più grande autovalore dell'Hessiana, allineandosi con le teorie classiche dell'apprendimento.

English

Low-Rank Adaptation (LoRA) is the prevailing approach for efficient large language model (LLM) fine-tuning. Building on this paradigm, recent studies have proposed alternative initialization strategies and architectural modifications, reporting substantial improvements over vanilla LoRA. However, these gains are often demonstrated under fixed or narrowly tuned hyperparameter settings, despite the known sensitivity of neural networks to training configurations. In this work, we systematically re-evaluate four representative LoRA variants alongside vanilla LoRA through extensive hyperparameter searches. Across mathematical and code generation tasks on diverse model scales, we find that different LoRA methods favor distinct learning rate ranges. Crucially, once learning rates are properly tuned, all methods achieve similar peak performance (within 1-2%), with only subtle rank-dependent behaviors. These results suggest that vanilla LoRA remains a competitive baseline and that improvements reported under single training configuration may not reflect consistent methodological advantages. Finally, a second-order analysis attributes the differing optimal learning rate ranges to variations in the largest Hessian eigenvalue, aligning with classical learning theories.

L'Importanza del Tasso di Apprendimento: Una Semplice LoRA Può Bastare per il Fine-Tuning dei Modelli Linguistici

Learning Rate Matters: Vanilla LoRA May Suffice for LLM Fine-tuning

Abstract

Support