Orthogonaal Fine-tuning Schaalbaar Gemaakt

Samenvatting

Orthogonale finetuning (OFT) biedt een zeer parameter-efficiënte aanpassing terwijl catastrofaal vergeten wordt voorkomen, maar de hoge rekentijd en geheugenvraag beperken de praktische inzetbaarheid. Wij identificeren het kerncomputatieknelpunt in OFT als de gewichtsgerichte implementatie, die berust op kostbare matrix-matrixvermenigvuldigingen met kubische complexiteit. Om dit te overwinnen, stellen we OFTv2 voor, een invoergerichte herformulering die in plaats daarvan matrix-vectorvermenigvuldigingen gebruikt (d.w.z. matrixvrije berekening), waardoor de rekenkosten worden teruggebracht tot kwadratisch. We introduceren verder de Cayley-Neumann-parameterisatie, een efficiënte orthogonale parameterisatie die de matrixinversie in de Cayley-transformatie benadert via een afgekapte Neumann-reeks. Deze aanpassingen zorgen ervoor dat OFTv2 tot 10x snellere training en 3x lager GPU-geheugengebruik kan bereiken zonder in te leveren op prestaties. Daarnaast breiden we OFTv2 uit om het finetunen van gekwantiseerde foundation-modellen te ondersteunen en laten we zien dat het de populaire QLoRA overtreft in trainingsstabiliteit, efficiëntie en geheugengebruik.

English

Orthogonal finetuning (OFT) offers highly parameter-efficient adaptation while preventing catastrophic forgetting, but its high runtime and memory demands limit practical deployment. We identify the core computational bottleneck in OFT as its weight-centric implementation, which relies on costly matrix-matrix multiplications with cubic complexity. To overcome this, we propose OFTv2, an input-centric reformulation that instead uses matrix-vector multiplications (i.e., matrix-free computation), reducing the computational cost to quadratic. We further introduce the Cayley-Neumann parameterization, an efficient orthogonal parameterization that approximates the matrix inversion in Cayley transform via a truncated Neumann series. These modifications allow OFTv2 to achieve up to 10x faster training and 3x lower GPU memory usage without compromising performance. In addition, we extend OFTv2 to support finetuning quantized foundation models and show that it outperforms the popular QLoRA in training stability, efficiency, and memory usage.

Orthogonaal Fine-tuning Schaalbaar Gemaakt

Orthogonal Finetuning Made Scalable

Samenvatting

Support