**스케일링 DoRA: 인수분해 노름과 융합 커널을 통한 고차원 순위 적응**
Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels
March 23, 2026
저자: Alexandra Zelenin, Alexandra Zhuravlyova
cs.AI
초록
가중치 분해 저순위 적응(DoRA)은 LoRA를 확장하여 가중치 크기를 방향과 분리하지만, 순전파 과정에서는 W + sBA의 행별 노름 계산이 필요합니다. 주요 프레임워크들은 모두 [d_out, d_in] 크기의 밀집 행렬 곱 BA를 실제로 생성하는 방식으로 이를 구현합니다. d_in = 8192이고 순위 r = 384일 때, 단일 모듈의 노름 계산은 bf16 기준 약 512MB의 일시적 작업 메모리가 필요하여, 수백 개의 적응 모듈과 체크포인팅이 동반되면 고순위 DoRA는 일반적인 단일 GPU 환경에서 비용이 높고 종종 실행 불가능합니다.
본 논문은 두 가지 시스템 기여를 제시합니다. 인수분해 노름은 제곱 노름을 기본, 교차, Gram 항으로 분해하여 O(d_out r + r^2) 중간 계산을 통해 밀집 행렬 곱을 제거합니다. 융합 Triton 커널은 4단계의 DoRA 구성 커널을 단일 패스로 통합하여 메모리 트래픽을 약 4분의 1로 줄이고, 실제 크기 스케일이 집중되는 near-unity 재조정 영역에서 치명적 취소를 방지하는 수치적으로 안정된 형태를 사용합니다.
bf16 기준 r = 384로 세 가지 NVIDIA GPU(RTX 6000 PRO, H200, B200)에서 6개의 8-32B 비전-언어 모델에 대해 테스트한 결과, 융합 구현은 Hugging Face PEFT의 DoRA 구현보다 추론 시 1.5-2.0배, 기울기 계산 시(옵티마이저 단계 제외) 1.5-1.9배 빠르며, 최대 7GB 더 낮은 최대 VRAM을 보였습니다. 4세대 아키텍처에 걸친 6개 GPU(L40S, A100, RTX 6000 PRO, H200, B200, B300)의 마이크로 벤치마크는 구성 커널 속도가 1.5-2.7배 향상됨을 확인합니다. 최종 로짓 코사인 유사도는 모든 모델/GPU 쌍에서 0.9999를 초과하며, 2000단계에 걸친 다중 시드 학습 곡선은 단계별 평균 손실 차이 7.1 x 10^-4 이내로 일치합니다.
English
Weight-Decomposed Low-Rank Adaptation (DoRA) extends LoRA by decoupling weight magnitude from direction, but its forward pass requires the row-wise norm of W + sBA, a computation that every major framework we surveyed implements by materializing the dense [d_out, d_in] product BA. At d_in = 8192 and rank r = 384, a single module's norm requires about 512 MB of transient working memory in bf16, making high-rank DoRA costly and often infeasible on common single-GPU setups once hundreds of adapted modules and checkpointing are involved.
We present two systems contributions. A factored norm decomposes the squared norm into base, cross, and Gram terms computable through O(d_out r + r^2) intermediates, eliminating the dense product. Fused Triton kernels collapse the four-kernel DoRA composition into a single pass, reducing memory traffic by about 4x and using a numerically stable form that avoids catastrophic cancellation in the near-unity rescaling regime where magnitude scales concentrate in practice.
Across six 8-32B vision-language models (VLMs) on three NVIDIA GPUs (RTX 6000 PRO, H200, B200) at r = 384 in bf16, the fused implementation is 1.5-2.0x faster than Hugging Face PEFT's DoRA implementation for inference and 1.5-1.9x faster for gradient computation (optimizer step excluded), with up to 7 GB lower peak VRAM. Microbenchmarks on six GPUs spanning four architecture generations (L40S, A100, RTX 6000 PRO, H200, B200, B300) confirm 1.5-2.7x compose-kernel speedup. Final-logit cosine similarity exceeds 0.9999 across all model/GPU pairs, and multi-seed training curves match within 7.1 x 10^-4 mean per-step loss delta over 2000 steps.