Skalierung von DoRA: Hochrangige Adaption mittels faktorisierter Normen und fusionierter Kernel

Zusammenfassung

Gewichtsdekomponierte Low-Rank-Adaption (DoRA) erweitert LoRA durch die Entkopplung der Gewichtsgröße von der Richtung. Allerdings erfordert ihr Vorwärtsdurchlauf die zeilenweise Norm von W + sBA, eine Berechnung, die jeder größere Framework, den wir untersucht haben, durch die Materialisierung des dichten [d_out, d_in]-Produkts BA implementiert. Bei d_in = 8192 und Rang r = 384 erfordert die Norm eines einzelnen Moduls etwa 512 MB transienten Arbeitsspeicher in bf16, was DoRA mit hohem Rang kostspielig und auf gängigen Single-GPU-Setups oft undurchführbar macht, sobald hunderte adaptierte Module und Checkpointing involviert sind. Wir präsentieren zwei Systembeiträge. Eine faktorisierte Norm zerlegt die quadrierte Norm in Basis-, Kreuz- und Gram-Terme, die über O(d_out r + r^2)-Zwischenwerte berechenbar sind und das dichte Produkt eliminieren. Fused Triton-Kernel reduzieren die DoRA-Zusammensetzung aus vier Kerneln auf einen einzigen Durchlauf, senken den Speicherdatenverkehr um etwa das 4-fache und verwenden eine numerisch stabile Form, die katastrophale Auslöschung im Praxis-relevanten Bereich nahe der Einheitsskalierung vermeidet, wo sich die Größenordnungen konzentrieren. Über sechs 8-32B Vision-Language-Modelle (VLMs) auf drei NVIDIA-GPUs (RTX 6000 PRO, H200, B200) bei r = 384 in bf16 hinweg ist die gefused Implementierung 1,5-2,0x schneller als Hugging Face PEFTs DoRA-Implementierung für Inference und 1,5-1,9x schneller für die Gradientenberechnung (Optimiererschritt ausgenommen), mit bis zu 7 GB niedrigerem VRAM-Spitzenverbrauch. Microbenchmarks auf sechs GPUs über vier Architekturgenerationen (L40S, A100, RTX 6000 PRO, H200, B200, B300) bestätigen eine 1,5-2,7x Beschleunigung der Compose-Kernel. Die Kosinusähnlichkeit der Final-Logits übersteigt 0,9999 über alle Modell/GPU-Paare hinweg, und Trainingskurven mit mehreren Seeds stimmen innerhalb eines mittleren Verlustdeltas von 7,1 x 10^-4 pro Schritt über 2000 Schritte überein.

English

Weight-Decomposed Low-Rank Adaptation (DoRA) extends LoRA by decoupling weight magnitude from direction, but its forward pass requires the row-wise norm of W + sBA, a computation that every major framework we surveyed implements by materializing the dense [d_out, d_in] product BA. At d_in = 8192 and rank r = 384, a single module's norm requires about 512 MB of transient working memory in bf16, making high-rank DoRA costly and often infeasible on common single-GPU setups once hundreds of adapted modules and checkpointing are involved. We present two systems contributions. A factored norm decomposes the squared norm into base, cross, and Gram terms computable through O(d_out r + r^2) intermediates, eliminating the dense product. Fused Triton kernels collapse the four-kernel DoRA composition into a single pass, reducing memory traffic by about 4x and using a numerically stable form that avoids catastrophic cancellation in the near-unity rescaling regime where magnitude scales concentrate in practice. Across six 8-32B vision-language models (VLMs) on three NVIDIA GPUs (RTX 6000 PRO, H200, B200) at r = 384 in bf16, the fused implementation is 1.5-2.0x faster than Hugging Face PEFT's DoRA implementation for inference and 1.5-1.9x faster for gradient computation (optimizer step excluded), with up to 7 GB lower peak VRAM. Microbenchmarks on six GPUs spanning four architecture generations (L40S, A100, RTX 6000 PRO, H200, B200, B300) confirm 1.5-2.7x compose-kernel speedup. Final-logit cosine similarity exceeds 0.9999 across all model/GPU pairs, and multi-seed training curves match within 7.1 x 10^-4 mean per-step loss delta over 2000 steps.

Skalierung von DoRA: Hochrangige Adaption mittels faktorisierter Normen und fusionierter Kernel

Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels

Zusammenfassung

Support