AdaPreLoRA: Adafactor-vorkonditionierte Low-Rank-Anpassung
AdaPreLoRA: Adafactor Preconditioned Low-Rank Adaptation
May 9, 2026
Autoren: Ziyun Liu, Fengmiao Bian, Jian-Feng Cai
cs.AI
Zusammenfassung
Low-Rank Adaptation (LoRA) reparametrisiert eine Gewichtsaktualisierung als Produkt zweier niedrigrangiger Faktoren, jedoch ist die Jacobi-Matrix \(J_{G}\) des Generators, der die Faktoren auf die Gewichtsmatrix abbildet, rangdefizitär, sodass der durch einen beliebigen \(\mathcal{W}\)-Raum-Vorkonditionierer \(F_t\) induzierte Faktorraum-Vorkonditionierer \(J_G^* F_t J_G\) singulär ist. Folglich kann die Standard-Kettenregel nicht eindeutig invertiert werden, um eine vorkonditionierte \(\mathcal{W}\)-Raum-Richtung zurück in eine Aktualisierung im Faktorraum abzubilden. Wir fassen bestehende LoRA-Optimierer in einem einheitlichen Rahmen zusammen, der durch zwei Wahlmöglichkeiten parametrisiert wird: (i) welcher invertierbare Ersatz für \(J_G^* F_t J_G\) verwendet wird, und (ii) welcher \(F_t\) auf \(\mathcal{W}\) zum Einsatz kommt. Bestehende Methoden besetzen entlang dieser Achsen vier Familien: adaptive Aktualisierungen im Faktorraum, blockdiagonale Ersatzmodelle für \(J_G^* J_G\), Frobenius-Residuum-Pseudoinverse-Verfahren und Riemannsche Mannigfaltigkeitsbeschränkungen. In diesem Entwurfsraum bleibt eine gradientenstatistikbewusste Wahl von \(F_t\) kombiniert mit einer geschlossenen Lösung im Faktorraum bei einem Speicherbedarf von \(\mathcal{O}((m+n)r)\) bisher wenig erforscht. Wir schlagen AdaPreLoRA vor, das diese Lücke schließt, indem es den diagonalen Kronecker-Vorkonditionierer \(\hat{H}_t\) von Adafactor auf \(\mathcal{W}\) verwendet und aus der resultierenden Lösungsfamilie im Faktorraum das Element auswählt, das eine \(\hat{H}_t\)-gewichtete Unausgewogenheit zwischen den beiden Faktorbeiträgen minimiert. Konstruktionsbedingt ist die resultierende Faktoraktualisierung die beste LoRA-Approximation der vorkonditionierten \(\mathcal{W}\)-Raum-Richtung unter der \(\hat{H}_t\)-gewichteten Norm. Über GPT-2 (E2E), Mistral-7B und Qwen2-7B (GLUE, ARC, GSM8K) sowie die Personalisierung von Diffusionsmodellen hinweg ist AdaPreLoRA konkurrenzfähig mit oder verbessert eine repräsentative Auswahl von LoRA-Optimierern, während der Spitzen-GPU-Speicher auf dem Niveau der LoRA-Optimierer bleibt.
English
Low-Rank Adaptation (LoRA) reparameterizes a weight update as a product of two low-rank factors, but the Jacobian J_{G} of the generator mapping the factors to the weight matrix is rank-deficient, so the factor-space preconditioner J_{G}^* {F}_t J_{G} induced by any {W}-space preconditioner {F}_t is singular, and consequently the standard chain rule cannot be uniquely inverted to map a preconditioned {W}-space direction back to a factor-space update. We cast existing LoRA optimizers in a unified framework parameterized by two choices: (i) which invertible surrogate for J_{G}^* {F}_t J_{G} to use, and (ii) which {F}_t on {W} to use. Existing methods occupy four families along these axes: factor-space adaptive updates, block-diagonal surrogates for J_{G}^* J_{G}, Frobenius-residual pseudoinverse methods, and Riemannian manifold constraint. Within this design space, a gradient-statistics-aware {F}_t paired with a closed-form factor-space solve at {O}((m+n)r) memory remains underexplored. We propose AdaPreLoRA, which fills this gap by adopting the Adafactor diagonal Kronecker preconditioner {H}_t on {W} and selecting from the resulting factor-space solution family the element minimizing an {H}_t-weighted imbalance between the two factor contributions; by construction, the resulting factor update is the closest LoRA approximation to the preconditioned {W}-space direction under the {H}_t-weighted norm. Across GPT-2 (E2E), Mistral-7B and Qwen2-7B (GLUE, ARC, GSM8K), and diffusion-model personalization, AdaPreLoRA is competitive with or improves over a representative set of LoRA optimizers while keeping peak GPU memory at the LoRA optimizer level.