La Tasa de Aprendizaje Importa: LoRA Simple Puede Ser Suficiente para el Ajuste Fino de LLM
Learning Rate Matters: Vanilla LoRA May Suffice for LLM Fine-tuning
February 4, 2026
Autores: Yu-Ang Lee, Ching-Yun Ko, Pin-Yu Chen, Mi-Yen Yeh
cs.AI
Resumen
La Adaptación de Bajo Rango (LoRA) es el enfoque predominante para el ajuste fino eficiente de modelos de lenguaje grandes (LLM). Sobre esta base, estudios recientes han propuesto estrategias de inicialización alternativas y modificaciones arquitectónicas, reportando mejoras sustanciales respecto a LoRA estándar. Sin embargo, estas ganancias suelen demostrarse bajo configuraciones de hiperparámetros fijas o ajustadas de manera limitada, a pesar de la conocida sensibilidad de las redes neuronales a las configuraciones de entrenamiento. En este trabajo, reevaluamos sistemáticamente cuatro variantes representativas de LoRA junto con LoRA estándar mediante búsquedas exhaustivas de hiperparámetros. En diversas tareas de generación matemática y de código, y a través de diferentes escalas de modelos, encontramos que los distintos métodos LoRA favorecen rangos de tasas de aprendizaje específicos. Crucialmente, una vez que las tasas de aprendizaje se ajustan adecuadamente, todos los métodos alcanzan un rendimiento máximo similar (dentro de un 1-2%), mostrando únicamente comportamientos sutiles dependientes del rango. Estos resultados sugieren que LoRA estándar sigue siendo una base de referencia competitiva y que las mejoras reportadas bajo una única configuración de entrenamiento pueden no reflejar ventajas metodológicas consistentes. Finalmente, un análisis de segundo orden atribuye las diferencias en los rangos óptimos de tasa de aprendizaje a variaciones en el mayor valor propio del Hessiano, lo que se alinea con las teorías de aprendizaje clásicas.
English
Low-Rank Adaptation (LoRA) is the prevailing approach for efficient large language model (LLM) fine-tuning. Building on this paradigm, recent studies have proposed alternative initialization strategies and architectural modifications, reporting substantial improvements over vanilla LoRA. However, these gains are often demonstrated under fixed or narrowly tuned hyperparameter settings, despite the known sensitivity of neural networks to training configurations. In this work, we systematically re-evaluate four representative LoRA variants alongside vanilla LoRA through extensive hyperparameter searches. Across mathematical and code generation tasks on diverse model scales, we find that different LoRA methods favor distinct learning rate ranges. Crucially, once learning rates are properly tuned, all methods achieve similar peak performance (within 1-2%), with only subtle rank-dependent behaviors. These results suggest that vanilla LoRA remains a competitive baseline and that improvements reported under single training configuration may not reflect consistent methodological advantages. Finally, a second-order analysis attributes the differing optimal learning rate ranges to variations in the largest Hessian eigenvalue, aligning with classical learning theories.