AdaPreLoRA : Adaptation de faible rang préconditionnée par Adafactor

Résumé

L'Adaptation Bas-Rang (LoRA) reparamétrise une mise à jour de poids comme un produit de deux facteurs de bas rang, mais le Jacobien \(J_{G}\) du générateur qui mappe les facteurs vers la matrice de poids est de rang déficient, de sorte que le préconditionneur dans l'espace des facteurs \(J_{G}^* {F}_t J_{G}\) induit par tout préconditionneur \({F}_t\) dans l'espace \({W}\) est singulier, et par conséquent la règle de chaîne standard ne peut être inversée de manière unique pour mapper une direction préconditionnée dans l'espace \({W}\) vers une mise à jour dans l'espace des facteurs. Nous plaçons les optimiseurs LoRA existants dans un cadre unifié paramétré par deux choix : (i) quel surrogate inversible pour \(J_{G}^* {F}_t J_{G}\) utiliser, et (ii) quel \({F}_t\) sur \({W}\) utiliser. Les méthodes existantes se répartissent en quatre familles selon ces axes : les mises à jour adaptatives dans l'espace des facteurs, les surrogates bloc-diagonaux pour \(J_{G}^* J_{G}\), les méthodes de pseudo-inverse basées sur le résidu de Frobenius, et la contrainte de variété riemannienne. Dans cet espace de conception, un \({F}_t\) tenant compte des statistiques de gradient associé à une résolution en forme fermée dans l'espace des facteurs avec une mémoire de \(\mathcal{O}((m+n)r)\) reste sous-exploré. Nous proposons AdaPreLoRA, qui comble cette lacune en adoptant le préconditionneur diagonal de Kronecker d'Adafactor \({H}_t\) sur \({W}\) et en sélectionnant parmi la famille de solutions dans l'espace des facteurs résultante l'élément qui minimise un déséquilibre pondéré par \({H}_t\) entre les deux contributions factorielles ; par construction, la mise à jour factorielle résultante est l'approximation LoRA la plus proche de la direction préconditionnée dans l'espace \({W}\) sous la norme pondérée par \({H}_t\). Sur GPT-2 (E2E), Mistral-7B et Qwen2-7B (GLUE, ARC, GSM8K), et la personnalisation de modèles de diffusion, AdaPreLoRA est compétitif ou améliore un ensemble représentatif d'optimiseurs LoRA tout en maintenant la mémoire GPU de pointe au niveau de l'optimiseur LoRA.

English

Low-Rank Adaptation (LoRA) reparameterizes a weight update as a product of two low-rank factors, but the Jacobian J_{G} of the generator mapping the factors to the weight matrix is rank-deficient, so the factor-space preconditioner J_{G}^* {F}_t J_{G} induced by any {W}-space preconditioner {F}_t is singular, and consequently the standard chain rule cannot be uniquely inverted to map a preconditioned {W}-space direction back to a factor-space update. We cast existing LoRA optimizers in a unified framework parameterized by two choices: (i) which invertible surrogate for J_{G}^* {F}_t J_{G} to use, and (ii) which {F}_t on {W} to use. Existing methods occupy four families along these axes: factor-space adaptive updates, block-diagonal surrogates for J_{G}^* J_{G}, Frobenius-residual pseudoinverse methods, and Riemannian manifold constraint. Within this design space, a gradient-statistics-aware {F}_t paired with a closed-form factor-space solve at {O}((m+n)r) memory remains underexplored. We propose AdaPreLoRA, which fills this gap by adopting the Adafactor diagonal Kronecker preconditioner {H}_t on {W} and selecting from the resulting factor-space solution family the element minimizing an {H}_t-weighted imbalance between the two factor contributions; by construction, the resulting factor update is the closest LoRA approximation to the preconditioned {W}-space direction under the {H}_t-weighted norm. Across GPT-2 (E2E), Mistral-7B and Qwen2-7B (GLUE, ARC, GSM8K), and diffusion-model personalization, AdaPreLoRA is competitive with or improves over a representative set of LoRA optimizers while keeping peak GPU memory at the LoRA optimizer level.

AdaPreLoRA : Adaptation de faible rang préconditionnée par Adafactor

AdaPreLoRA: Adafactor Preconditioned Low-Rank Adaptation

Résumé

Support