AdaPreLoRA: Adafactor 전처리 저순위 적응
AdaPreLoRA: Adafactor Preconditioned Low-Rank Adaptation
May 9, 2026
저자: Ziyun Liu, Fengmiao Bian, Jian-Feng Cai
cs.AI
초록
저순위 적응(LoRA)은 가중치 업데이트를 두 개의 저순위 인자의 곱으로 재매개화하지만, 인자를 가중치 행렬로 매핑하는 생성자의 야코비안 \( J_G \)는 랭크 부족이므로, 임의의 \( \mathcal{W} \) 공간 전제조건자 \( F_t \)에 의해 유도된 인자 공간 전제조건자 \( J_G^* F_t J_G \)는 특이이며, 결과적으로 표준 연쇄 법칙은 전제조건화된 \( \mathcal{W} \) 공간 방향을 인자 공간 업데이트로 유일하게 역변환할 수 없다. 우리는 기존 LoRA 최적화 도구를 두 가지 선택에 의해 매개변수화된 통합 프레임워크로 정리한다: (i) \( J_G^* F_t J_G \)에 대해 어떤 가역 대리자를 사용할지, (ii) \( \mathcal{W} \) 상에서 어떤 \( F_t \)를 사용할지. 기존 방법들은 이 축을 따라 네 가지 계열을 차지한다: 인자 공간 적응 업데이트, \( J_G^* J_G \)의 블록 대각 대리자, 프로베니우스 잔차 의사역행렬 방법, 리만 다양체 제약. 이 설계 공간 내에서, \( \mathcal{O}((m+n)r) \) 메모리의 폐쇄형 인자 공간 해와 짝을 이루는 그래디언트 통계 인식 \( F_t \)는 아직 충분히 탐구되지 않았다. 우리는 AdaPreLoRA를 제안하는데, 이는 \( \mathcal{W} \) 상에서 Adafactor 대각 크로네커 전제조건자 \( H_t \)를 채택하고, 결과로 얻은 인자 공간 해족에서 두 인자 기여 간의 \( H_t \) 가중 불균형을 최소화하는 요소를 선택함으로써 이 격차를 메운다. 구성상, 결과 인자 업데이트는 \( H_t \) 가중 노름 하에서 전제조건화된 \( \mathcal{W} \) 공간 방향에 가장 가까운 LoRA 근사이다. GPT-2(E2E), Mistral-7B 및 Qwen2-7B(GLUE, ARC, GSM8K), 그리고 확산 모델 개인화에 걸쳐, AdaPreLoRA는 대표적인 LoRA 최적화 도구 세트와 경쟁력이 있거나 개선된 성능을 보이면서 최대 GPU 메모리를 LoRA 최적화 도구 수준으로 유지한다.
English
Low-Rank Adaptation (LoRA) reparameterizes a weight update as a product of two low-rank factors, but the Jacobian J_{G} of the generator mapping the factors to the weight matrix is rank-deficient, so the factor-space preconditioner J_{G}^* {F}_t J_{G} induced by any {W}-space preconditioner {F}_t is singular, and consequently the standard chain rule cannot be uniquely inverted to map a preconditioned {W}-space direction back to a factor-space update. We cast existing LoRA optimizers in a unified framework parameterized by two choices: (i) which invertible surrogate for J_{G}^* {F}_t J_{G} to use, and (ii) which {F}_t on {W} to use. Existing methods occupy four families along these axes: factor-space adaptive updates, block-diagonal surrogates for J_{G}^* J_{G}, Frobenius-residual pseudoinverse methods, and Riemannian manifold constraint. Within this design space, a gradient-statistics-aware {F}_t paired with a closed-form factor-space solve at {O}((m+n)r) memory remains underexplored. We propose AdaPreLoRA, which fills this gap by adopting the Adafactor diagonal Kronecker preconditioner {H}_t on {W} and selecting from the resulting factor-space solution family the element minimizing an {H}_t-weighted imbalance between the two factor contributions; by construction, the resulting factor update is the closest LoRA approximation to the preconditioned {W}-space direction under the {H}_t-weighted norm. Across GPT-2 (E2E), Mistral-7B and Qwen2-7B (GLUE, ARC, GSM8K), and diffusion-model personalization, AdaPreLoRA is competitive with or improves over a representative set of LoRA optimizers while keeping peak GPU memory at the LoRA optimizer level.