AdaPreLoRA: Adaptación de Bajo Rango Preacondicionada por Adafactor

Resumen

La Adaptación de Bajo Rango (LoRA) reparametriza una actualización de pesos como producto de dos factores de bajo rango, pero el Jacobiano J_{G} del mapeo generador que asigna los factores a la matriz de pesos tiene rango deficiente, por lo que el preacondicionador del espacio de factores J_{G}^* {F}_t J_{G} inducido por cualquier preacondicionador del espacio {W}, {F}_t, es singular. En consecuencia, la regla de la cadena estándar no puede invertirse de manera única para mapear una dirección preacondicionada del espacio {W} de vuelta a una actualización en el espacio de factores. Formulamos los optimizadores LoRA existentes en un marco unificado parametrizado por dos elecciones: (i) qué sustituto invertible de J_{G}^* {F}_t J_{G} utilizar, y (ii) qué {F}_t sobre {W} emplear. Los métodos existentes se sitúan en cuatro familias a lo largo de estos ejes: actualizaciones adaptativas en el espacio de factores, sustitutos diagonales por bloques de J_{G}^* J_{G}, métodos de pseudoinversa de residuo de Frobenius y restricciones de variedad Riemanniana. Dentro de este espacio de diseño, ha quedado poco explorada la combinación de un {F}_t consciente de las estadísticas del gradiente con una solución en forma cerrada en el espacio de factores con memoria de {O}((m+n)r). Proponemos AdaPreLoRA, que llena este vacío al adoptar el preacondicionador diagonal de Kronecker de Adafactor {H}_t sobre {W} y seleccionar, dentro de la familia de soluciones resultante en el espacio de factores, el elemento que minimiza un desequilibrio ponderado por {H}_t entre las contribuciones de los dos factores. Por construcción, la actualización de factores resultante es la aproximación LoRA más cercana a la dirección preacondicionada del espacio {W} bajo la norma ponderada por {H}_t. En experimentos con GPT-2 (E2E), Mistral-7B y Qwen2-7B (GLUE, ARC, GSM8K), así como en personalización de modelos de difusión, AdaPreLoRA resulta competitivo o mejora un conjunto representativo de optimizadores LoRA, mientras mantiene la memoria máxima de GPU al nivel de los optimizadores LoRA.

English

Low-Rank Adaptation (LoRA) reparameterizes a weight update as a product of two low-rank factors, but the Jacobian J_{G} of the generator mapping the factors to the weight matrix is rank-deficient, so the factor-space preconditioner J_{G}^* {F}_t J_{G} induced by any {W}-space preconditioner {F}_t is singular, and consequently the standard chain rule cannot be uniquely inverted to map a preconditioned {W}-space direction back to a factor-space update. We cast existing LoRA optimizers in a unified framework parameterized by two choices: (i) which invertible surrogate for J_{G}^* {F}_t J_{G} to use, and (ii) which {F}_t on {W} to use. Existing methods occupy four families along these axes: factor-space adaptive updates, block-diagonal surrogates for J_{G}^* J_{G}, Frobenius-residual pseudoinverse methods, and Riemannian manifold constraint. Within this design space, a gradient-statistics-aware {F}_t paired with a closed-form factor-space solve at {O}((m+n)r) memory remains underexplored. We propose AdaPreLoRA, which fills this gap by adopting the Adafactor diagonal Kronecker preconditioner {H}_t on {W} and selecting from the resulting factor-space solution family the element minimizing an {H}_t-weighted imbalance between the two factor contributions; by construction, the resulting factor update is the closest LoRA approximation to the preconditioned {W}-space direction under the {H}_t-weighted norm. Across GPT-2 (E2E), Mistral-7B and Qwen2-7B (GLUE, ARC, GSM8K), and diffusion-model personalization, AdaPreLoRA is competitive with or improves over a representative set of LoRA optimizers while keeping peak GPU memory at the LoRA optimizer level.

AdaPreLoRA: Adaptación de Bajo Rango Preacondicionada por Adafactor

AdaPreLoRA: Adafactor Preconditioned Low-Rank Adaptation

Resumen

Support