Важность скорости обучения: обычного LoRA может быть достаточно для тонкой настройки больших языковых моделей

Аннотация

Низкоранговая адаптация (LoRA) является преобладающим методом для эффективного тонкого настроя больших языковых моделей (LLM). Развивая эту парадигму, недавние исследования предложили альтернативные стратегии инициализации и архитектурные модификации, сообщая о значительном улучшении по сравнению с базовой версией LoRA. Однако эти достижения часто демонстрируются в условиях фиксированных или узконастроенных гиперпараметров, несмотря на известную чувствительность нейронных сетей к конфигурации обучения. В данной работе мы систематически переоцениваем четыре репрезентативных варианта LoRA вместе с базовой версией путем обширного поиска гиперпараметров. На задачах математического и программного генерации для моделей различного масштаба мы обнаружили, что разные методы LoRA предпочитают различные диапазоны скорости обучения. Ключевым является то, что после правильной настройки скорости обучения все методы достигают схожей пиковой производительности (в пределах 1–2%), демонстрируя лишь незначительные различия в поведении, зависящем от ранга. Эти результаты позволяют предположить, что базовая LoRA остается конкурентоспособным базовым методом, а улучшения, заявленные при единой конфигурации обучения, могут не отражать устойчивых методологических преимуществ. Наконец, анализ второго порядка объясняет различие в оптимальных диапазонах скорости обучения вариациями наибольшего собственного значения гессиана, что согласуется с классическими теориями обучения.

English

Low-Rank Adaptation (LoRA) is the prevailing approach for efficient large language model (LLM) fine-tuning. Building on this paradigm, recent studies have proposed alternative initialization strategies and architectural modifications, reporting substantial improvements over vanilla LoRA. However, these gains are often demonstrated under fixed or narrowly tuned hyperparameter settings, despite the known sensitivity of neural networks to training configurations. In this work, we systematically re-evaluate four representative LoRA variants alongside vanilla LoRA through extensive hyperparameter searches. Across mathematical and code generation tasks on diverse model scales, we find that different LoRA methods favor distinct learning rate ranges. Crucially, once learning rates are properly tuned, all methods achieve similar peak performance (within 1-2%), with only subtle rank-dependent behaviors. These results suggest that vanilla LoRA remains a competitive baseline and that improvements reported under single training configuration may not reflect consistent methodological advantages. Finally, a second-order analysis attributes the differing optimal learning rate ranges to variations in the largest Hessian eigenvalue, aligning with classical learning theories.

Важность скорости обучения: обычного LoRA может быть достаточно для тонкой настройки больших языковых моделей

Learning Rate Matters: Vanilla LoRA May Suffice for LLM Fine-tuning

Аннотация

Support