De verborgen kracht van de schaalfactor in LoRA-optimalisatie

Samenvatting

In Low-Rank Adaptation (LoRA) wordt de schaalfactor α vaak behandeld als een loutere aanvulling op de leersnelheid, maar de rol ervan in optimalisatie wordt nog steeds slecht begrepen. In dit artikel onthullen we dat de schaalfactor α en de leersnelheid verschillend functioneren, waarbij α naar voren komt als de dominante drijver van effectieve optimalisatie, die winsten oplevert die niet kunnen worden gerepliceerd door alleen de leersnelheid te schalen. Door de synergie van uitgebreide empirische analyse en een theoretisch Signaal-Drift raamwerk, ontdekken we drie bevindingen over het schaalmechanisme van LoRA: Ten eerste maakt LoRA's spectrale onderdrukking het optimalisatielandschap glad, waardoor standaard hyperparameters te conservatief worden en er een optimalisatiekloof ontstaat. Ten tweede, wanneer men deze gladheid benut om convergentie te versnellen, presteert α beter dan de leersnelheid door het taaksignaal te versterken zonder de driftverhouding te verhogen. Ten derde volgt de optimale schaalfactor een sublineaire relatie met de rang, goed gekarakteriseerd door een vierkantswortelwet met een onverwacht grote coëfficiënt, wat de onvoldoende schaling van bestaande rang-gebonden heuristieken onthult. Op basis van deze inzichten stellen we LoRA-α voor, een minimalistisch raamwerk dat α herstelt naar zijn principe-regime, waardoor LoRA compatibel wordt met standaard kleine leersnelheden. Uitgebreide evaluaties over diverse taken tonen aan dat LoRA-α consistent de prestaties verbetert terwijl het hyperparameteronderzoek stroomlijnt, waarmee het leerpotentieel van LoRA wordt ontketend.

English

In Low-Rank Adaptation (LoRA), the scaling factor α is often treated as a mere complement to the learning rate, yet its role in optimization remains poorly understood. In this paper, we reveal that the scaling factor α and the learning rate function differently, with α emerging as the dominant driver of effective optimization, delivering gains that cannot be replicated by learning rate scaling alone. Through the synergy of extensive empirical analysis and a theoretical Signal-Drift framework, we uncover three findings into LoRA's scaling mechanism: First, LoRA's spectral suppression smooths the optimization landscape, rendering standard hyperparameters overly conservative and creating an optimization gap. Second, when leveraging this smoothness to accelerate convergence, α outperforms the learning rate by amplifying the task signal without increasing the drift ratio. Third, the optimal scaling factor follows a sublinear relationship with the rank, well characterized by a square-root law with an unexpectedly large coefficient, revealing the insufficient scaling of existing rank-tied heuristics. Based on these insights, we propose LoRA-α, a minimalist framework that restores α to its principled regime, making LoRA compatible with standard small learning rates. Extensive evaluations across diverse tasks demonstrate that LoRA-α consistently improves performance while streamlining hyperparameter search, unleashing the learning potential of LoRA.