L'Affinage Orthogonal Rendu Évolutif
Orthogonal Finetuning Made Scalable
June 24, 2025
Auteurs: Zeju Qiu, Weiyang Liu, Adrian Weller, Bernhard Schölkopf
cs.AI
Résumé
L'ajustement orthogonal (OFT) offre une adaptation hautement efficace en termes de paramètres tout en évitant l'oubli catastrophique, mais ses exigences élevées en temps d'exécution et en mémoire limitent son déploiement pratique. Nous identifions le principal goulot d'étranglement computationnel dans OFT comme son implémentation centrée sur les poids, qui repose sur des multiplications matricielles coûteuses avec une complexité cubique. Pour surmonter cela, nous proposons OFTv2, une reformulation centrée sur les entrées qui utilise à la place des multiplications matrice-vecteur (c'est-à-dire un calcul sans matrice), réduisant ainsi le coût computationnel à une complexité quadratique. Nous introduisons également la paramétrisation de Cayley-Neumann, une paramétrisation orthogonale efficace qui approxime l'inversion matricielle dans la transformation de Cayley via une série de Neumann tronquée. Ces modifications permettent à OFTv2 d'atteindre jusqu'à 10 fois plus de rapidité d'entraînement et une utilisation de mémoire GPU 3 fois plus faible sans compromettre les performances. De plus, nous étendons OFTv2 pour prendre en charge l'ajustement de modèles de base quantifiés et montrons qu'il surpasse la méthode populaire QLoRA en termes de stabilité d'entraînement, d'efficacité et d'utilisation de la mémoire.
English
Orthogonal finetuning (OFT) offers highly parameter-efficient adaptation
while preventing catastrophic forgetting, but its high runtime and memory
demands limit practical deployment. We identify the core computational
bottleneck in OFT as its weight-centric implementation, which relies on costly
matrix-matrix multiplications with cubic complexity. To overcome this, we
propose OFTv2, an input-centric reformulation that instead uses matrix-vector
multiplications (i.e., matrix-free computation), reducing the computational
cost to quadratic. We further introduce the Cayley-Neumann parameterization, an
efficient orthogonal parameterization that approximates the matrix inversion in
Cayley transform via a truncated Neumann series. These modifications allow
OFTv2 to achieve up to 10x faster training and 3x lower GPU memory usage
without compromising performance. In addition, we extend OFTv2 to support
finetuning quantized foundation models and show that it outperforms the popular
QLoRA in training stability, efficiency, and memory usage.