Скрытая сила масштабирующего коэффициента в оптимизации LoRA

Аннотация

В адаптации низкого ранга (LoRA) масштабирующий коэффициент α часто рассматривается как mere дополнение к скорости обучения, однако его роль в оптимизации остается плохо понятой. В данной статье мы показываем, что масштабирующий коэффициент α и скорость обучения выполняют разные функции, причем α выступает доминирующим фактором эффективной оптимизации, обеспечивая выигрыши, которые невозможно воспроизвести одним лишь масштабированием скорости обучения. Благодаря сочетанию обширного эмпирического анализа и теоретической основы «Сигнал-Дрейф» мы обнаружили три аспекта механизма масштабирования LoRA: во-первых, спектральное подавление LoRA сглаживает ландшафт оптимизации, делая стандартные гиперпараметры излишне консервативными и создавая разрыв в оптимизации. Во-вторых, при использовании этого сглаживания для ускорения сходимости α превосходит скорость обучения, усиливая целевой сигнал без увеличения коэффициента дрейфа. В-третьих, оптимальный масштабирующий коэффициент демонстрирует сублинейную зависимость от ранга, хорошо описываемую законом квадратного корня с неожиданно большим коэффициентом, что выявляет недостаточное масштабирование существующих эвристик, связанных с рангом. Основываясь на этих выводах, мы предлагаем LoRA-α — минималистичную структуру, которая возвращает α в его принципиальный режим, делая LoRA совместимой со стандартными малыми значениями скорости обучения. Обширные оценки на разнообразных задачах демонстрируют, что LoRA-α последовательно улучшает производительность, одновременно упрощая поиск гиперпараметров и раскрывая обучающий потенциал LoRA.

English

In Low-Rank Adaptation (LoRA), the scaling factor α is often treated as a mere complement to the learning rate, yet its role in optimization remains poorly understood. In this paper, we reveal that the scaling factor α and the learning rate function differently, with α emerging as the dominant driver of effective optimization, delivering gains that cannot be replicated by learning rate scaling alone. Through the synergy of extensive empirical analysis and a theoretical Signal-Drift framework, we uncover three findings into LoRA's scaling mechanism: First, LoRA's spectral suppression smooths the optimization landscape, rendering standard hyperparameters overly conservative and creating an optimization gap. Second, when leveraging this smoothness to accelerate convergence, α outperforms the learning rate by amplifying the task signal without increasing the drift ratio. Third, the optimal scaling factor follows a sublinear relationship with the rank, well characterized by a square-root law with an unexpectedly large coefficient, revealing the insufficient scaling of existing rank-tied heuristics. Based on these insights, we propose LoRA-α, a minimalist framework that restores α to its principled regime, making LoRA compatible with standard small learning rates. Extensive evaluations across diverse tasks demonstrate that LoRA-α consistently improves performance while streamlining hyperparameter search, unleashing the learning potential of LoRA.