AdaPreLoRA: Предобусловленная Adafactor низкоранговая адаптация

Аннотация

Адаптация с низким рангом (LoRA) перепараметризует обновление весов как произведение двух низкоранговых факторов, однако якобиан J_{G} генератора, отображающего факторы в матрицу весов, является неполноранговым, поэтому предобуславливатель в пространстве факторов J_{G}^* {F}_t J_{G}, индуцированный любым предобуславливателем {F}_t в пространстве {W}, сингулярен, и, как следствие, стандартное правило цепочки не может быть однозначно обращено для отображения предобусловленного направления в пространстве {W} обратно в обновление в пространстве факторов. Мы представляем существующие оптимизаторы LoRA в единой структуре, параметризованной двумя выборами: (i) какую обратимую замену для J_{G}^* {F}_t J_{G} использовать, и (ii) какой {F}_t на {W} применять. Существующие методы занимают четыре семейства вдоль этих осей: адаптивные обновления в пространстве факторов, блочно-диагональные замены для J_{G}^* J_{G}, методы псевдообращения по остатку Фробениуса и ограничения риманова многообразия. В этом пространстве проектирования остается малоизученной комбинация {F}_t, учитывающего статистику градиентов, с решением в замкнутой форме в пространстве факторов при объеме памяти {O}((m+n)r). Мы предлагаем AdaPreLoRA, который заполняет этот пробел, используя диагональный предобуславливатель Кронекера Adafactor {H}_t на {W} и выбирая из результирующего семейства решений в пространстве факторов элемент, минимизирующий взвешенный по {H}_t дисбаланс между вкладами двух факторов; по построению, такое обновление факторов является ближайшей аппроксимацией LoRA к предобусловленному направлению в пространстве {W} относительно нормы, взвешенной по {H}_t. На GPT-2 (E2E), Mistral-7B и Qwen2-7B (GLUE, ARC, GSM8K), а также при персонализации диффузионных моделей AdaPreLoRA конкурентоспособен или превосходит репрезентативный набор оптимизаторов LoRA, сохраняя при этом пиковое потребление памяти GPU на уровне оптимизатора LoRA.

English

Low-Rank Adaptation (LoRA) reparameterizes a weight update as a product of two low-rank factors, but the Jacobian J_{G} of the generator mapping the factors to the weight matrix is rank-deficient, so the factor-space preconditioner J_{G}^* {F}_t J_{G} induced by any {W}-space preconditioner {F}_t is singular, and consequently the standard chain rule cannot be uniquely inverted to map a preconditioned {W}-space direction back to a factor-space update. We cast existing LoRA optimizers in a unified framework parameterized by two choices: (i) which invertible surrogate for J_{G}^* {F}_t J_{G} to use, and (ii) which {F}_t on {W} to use. Existing methods occupy four families along these axes: factor-space adaptive updates, block-diagonal surrogates for J_{G}^* J_{G}, Frobenius-residual pseudoinverse methods, and Riemannian manifold constraint. Within this design space, a gradient-statistics-aware {F}_t paired with a closed-form factor-space solve at {O}((m+n)r) memory remains underexplored. We propose AdaPreLoRA, which fills this gap by adopting the Adafactor diagonal Kronecker preconditioner {H}_t on {W} and selecting from the resulting factor-space solution family the element minimizing an {H}_t-weighted imbalance between the two factor contributions; by construction, the resulting factor update is the closest LoRA approximation to the preconditioned {W}-space direction under the {H}_t-weighted norm. Across GPT-2 (E2E), Mistral-7B and Qwen2-7B (GLUE, ARC, GSM8K), and diffusion-model personalization, AdaPreLoRA is competitive with or improves over a representative set of LoRA optimizers while keeping peak GPU memory at the LoRA optimizer level.

AdaPreLoRA: Предобусловленная Adafactor низкоранговая адаптация

AdaPreLoRA: Adafactor Preconditioned Low-Rank Adaptation

Аннотация

Support