Die verborgene Kraft des Skalierungsfaktors in der LoRA-Optimierung

Zusammenfassung

Bei Low-Rank Adaptation (LoRA) wird der Skalierungsfaktor α oft als bloßes Komplement zur Lernrate betrachtet, doch seine Rolle in der Optimierung ist nach wie vor unzureichend verstanden. In dieser Arbeit zeigen wir, dass der Skalierungsfaktor α und die Lernrate unterschiedlich wirken, wobei α als dominanter Treiber der effektiven Optimierung hervortritt und Gewinne erzielt, die durch eine reine Skalierung der Lernrate nicht repliziert werden können. Durch das Zusammenwirken umfangreicher empirischer Analysen und eines theoretischen Signal-Drift-Frameworks gewinnen wir drei Erkenntnisse über den Skalierungsmechanismus von LoRA: Erstens glättet LoRAs spektrale Unterdrückung die Optimierungslandschaft, wodurch Standard-Hyperparameter übermäßig konservativ werden und eine Optimierungslücke entsteht. Zweitens übertrifft α, wenn diese Glätte zur Beschleunigung der Konvergenz genutzt wird, die Lernrate, indem es das Aufgabensignal verstärkt, ohne das Drift-Verhältnis zu erhöhen. Drittens folgt der optimale Skalierungsfaktor einer sublinearen Beziehung zum Rang, die gut durch ein Quadratwurzelgesetz mit einem unerwartet großen Koeffizienten charakterisiert wird, was die unzureichende Skalierung bestehender ranggebundener Heuristiken offenlegt. Basierend auf diesen Erkenntnissen schlagen wir LoRA-α vor, ein minimalistisches Framework, das α in seinen prinzipientreuen Bereich zurückführt und LoRA mit standardmäßig kleinen Lernraten kompatibel macht. Umfangreiche Auswertungen über verschiedene Aufgaben hinweg zeigen, dass LoRA-α die Leistung konsistent verbessert und gleichzeitig die Hyperparametersuche vereinfacht, wodurch das Lernpotenzial von LoRA voll ausgeschöpft wird.

English

In Low-Rank Adaptation (LoRA), the scaling factor α is often treated as a mere complement to the learning rate, yet its role in optimization remains poorly understood. In this paper, we reveal that the scaling factor α and the learning rate function differently, with α emerging as the dominant driver of effective optimization, delivering gains that cannot be replicated by learning rate scaling alone. Through the synergy of extensive empirical analysis and a theoretical Signal-Drift framework, we uncover three findings into LoRA's scaling mechanism: First, LoRA's spectral suppression smooths the optimization landscape, rendering standard hyperparameters overly conservative and creating an optimization gap. Second, when leveraging this smoothness to accelerate convergence, α outperforms the learning rate by amplifying the task signal without increasing the drift ratio. Third, the optimal scaling factor follows a sublinear relationship with the rank, well characterized by a square-root law with an unexpectedly large coefficient, revealing the insufficient scaling of existing rank-tied heuristics. Based on these insights, we propose LoRA-α, a minimalist framework that restores α to its principled regime, making LoRA compatible with standard small learning rates. Extensive evaluations across diverse tasks demonstrate that LoRA-α consistently improves performance while streamlining hyperparameter search, unleashing the learning potential of LoRA.