El poder oculto del factor de escala en la optimización de LoRA

Resumen

En la Adaptación de Bajo Rango (LoRA), el factor de escala α se trata a menudo como un mero complemento de la tasa de aprendizaje, sin embargo, su papel en la optimización sigue siendo poco comprendido. En este artículo, revelamos que el factor de escala α y la tasa de aprendizaje funcionan de manera diferente, emergiendo α como el motor dominante de la optimización efectiva, proporcionando ganancias que no pueden replicarse solo con el escalado de la tasa de aprendizaje. Mediante la sinergia de un amplio análisis empírico y un marco teórico de Señal-Deriva, descubrimos tres hallazgos sobre el mecanismo de escalado de LoRA: Primero, la supresión espectral de LoRA suaviza el paisaje de optimización, haciendo que los hiperparámetros estándar sean demasiado conservadores y creando una brecha de optimización. Segundo, al aprovechar esta suavidad para acelerar la convergencia, α supera a la tasa de aprendizaje al amplificar la señal de la tarea sin aumentar la relación de deriva. Tercero, el factor de escala óptimo sigue una relación sublineal con el rango, bien caracterizada por una ley de raíz cuadrada con un coeficiente inesperadamente grande, revelando el escalado insuficiente de las heurísticas vinculadas al rango existentes. Basándonos en estos conocimientos, proponemos LoRA-α, un marco minimalista que restaura α a su régimen fundamentado, haciendo que LoRA sea compatible con tasas de aprendizaje pequeñas estándar. Evaluaciones exhaustivas en diversas tareas demuestran que LoRA-α mejora consistentemente el rendimiento mientras simplifica la búsqueda de hiperparámetros, liberando el potencial de aprendizaje de LoRA.

English

In Low-Rank Adaptation (LoRA), the scaling factor α is often treated as a mere complement to the learning rate, yet its role in optimization remains poorly understood. In this paper, we reveal that the scaling factor α and the learning rate function differently, with α emerging as the dominant driver of effective optimization, delivering gains that cannot be replicated by learning rate scaling alone. Through the synergy of extensive empirical analysis and a theoretical Signal-Drift framework, we uncover three findings into LoRA's scaling mechanism: First, LoRA's spectral suppression smooths the optimization landscape, rendering standard hyperparameters overly conservative and creating an optimization gap. Second, when leveraging this smoothness to accelerate convergence, α outperforms the learning rate by amplifying the task signal without increasing the drift ratio. Third, the optimal scaling factor follows a sublinear relationship with the rank, well characterized by a square-root law with an unexpectedly large coefficient, revealing the insufficient scaling of existing rank-tied heuristics. Based on these insights, we propose LoRA-α, a minimalist framework that restores α to its principled regime, making LoRA compatible with standard small learning rates. Extensive evaluations across diverse tasks demonstrate that LoRA-α consistently improves performance while streamlining hyperparameter search, unleashing the learning potential of LoRA.