A Taxa de Aprendizagem é Crucial: LoRA Simples Pode Ser Suficiente para o Ajuste Fino de LLMs
Learning Rate Matters: Vanilla LoRA May Suffice for LLM Fine-tuning
February 4, 2026
Autores: Yu-Ang Lee, Ching-Yun Ko, Pin-Yu Chen, Mi-Yen Yeh
cs.AI
Resumo
A Adaptação de Baixo Posto (LoRA) é a abordagem predominante para o ajuste fino eficiente de grandes modelos de linguagem (LLMs). Com base neste paradigma, estudos recentes propuseram estratégias alternativas de inicialização e modificações arquiteturais, relatando melhorias substanciais em relação ao LoRA padrão. No entanto, esses ganhos são frequentemente demonstrados sob configurações de hiperparâmetros fixas ou com ajuste limitado, apesar da conhecida sensibilidade das redes neurais a configurações de treinamento. Neste trabalho, reavaliamos sistematicamente quatro variantes representativas de LoRA juntamente com o LoRA padrão por meio de buscas extensivas de hiperparâmetros. Em tarefas de geração matemática e de código, em diversas escalas de modelo, descobrimos que diferentes métodos LoRA favorecem intervalos distintos de taxa de aprendizagem. Crucialmente, uma vez que as taxas de aprendizagem são devidamente ajustadas, todos os métodos atingem um desempenho de pico semelhante (dentro de 1-2%), com apenas comportamentos sutis dependentes do posto (rank). Esses resultados sugerem que o LoRA padrão permanece uma linha de base competitiva e que as melhorias relatadas sob uma única configuração de treinamento podem não refletir vantagens metodológicas consistentes. Por fim, uma análise de segunda ordem atribui os diferentes intervalos ideais de taxa de aprendizagem a variações no maior autovalor da Hessiana, alinhando-se com as teorias clássicas de aprendizagem.
English
Low-Rank Adaptation (LoRA) is the prevailing approach for efficient large language model (LLM) fine-tuning. Building on this paradigm, recent studies have proposed alternative initialization strategies and architectural modifications, reporting substantial improvements over vanilla LoRA. However, these gains are often demonstrated under fixed or narrowly tuned hyperparameter settings, despite the known sensitivity of neural networks to training configurations. In this work, we systematically re-evaluate four representative LoRA variants alongside vanilla LoRA through extensive hyperparameter searches. Across mathematical and code generation tasks on diverse model scales, we find that different LoRA methods favor distinct learning rate ranges. Crucially, once learning rates are properly tuned, all methods achieve similar peak performance (within 1-2%), with only subtle rank-dependent behaviors. These results suggest that vanilla LoRA remains a competitive baseline and that improvements reported under single training configuration may not reflect consistent methodological advantages. Finally, a second-order analysis attributes the differing optimal learning rate ranges to variations in the largest Hessian eigenvalue, aligning with classical learning theories.