L'Affinage Orthogonal Rendu Évolutif

papers.abstract

L'ajustement orthogonal (OFT) offre une adaptation hautement efficace en termes de paramètres tout en évitant l'oubli catastrophique, mais ses exigences élevées en temps d'exécution et en mémoire limitent son déploiement pratique. Nous identifions le principal goulot d'étranglement computationnel dans OFT comme son implémentation centrée sur les poids, qui repose sur des multiplications matricielles coûteuses avec une complexité cubique. Pour surmonter cela, nous proposons OFTv2, une reformulation centrée sur les entrées qui utilise à la place des multiplications matrice-vecteur (c'est-à-dire un calcul sans matrice), réduisant ainsi le coût computationnel à une complexité quadratique. Nous introduisons également la paramétrisation de Cayley-Neumann, une paramétrisation orthogonale efficace qui approxime l'inversion matricielle dans la transformation de Cayley via une série de Neumann tronquée. Ces modifications permettent à OFTv2 d'atteindre jusqu'à 10 fois plus de rapidité d'entraînement et une utilisation de mémoire GPU 3 fois plus faible sans compromettre les performances. De plus, nous étendons OFTv2 pour prendre en charge l'ajustement de modèles de base quantifiés et montrons qu'il surpasse la méthode populaire QLoRA en termes de stabilité d'entraînement, d'efficacité et d'utilisation de la mémoire.

English

Orthogonal finetuning (OFT) offers highly parameter-efficient adaptation while preventing catastrophic forgetting, but its high runtime and memory demands limit practical deployment. We identify the core computational bottleneck in OFT as its weight-centric implementation, which relies on costly matrix-matrix multiplications with cubic complexity. To overcome this, we propose OFTv2, an input-centric reformulation that instead uses matrix-vector multiplications (i.e., matrix-free computation), reducing the computational cost to quadratic. We further introduce the Cayley-Neumann parameterization, an efficient orthogonal parameterization that approximates the matrix inversion in Cayley transform via a truncated Neumann series. These modifications allow OFTv2 to achieve up to 10x faster training and 3x lower GPU memory usage without compromising performance. In addition, we extend OFTv2 to support finetuning quantized foundation models and show that it outperforms the popular QLoRA in training stability, efficiency, and memory usage.

L'Affinage Orthogonal Rendu Évolutif

Orthogonal Finetuning Made Scalable

papers.abstract

Support