Orthogonaal Fine-tuning Schaalbaar Gemaakt
Orthogonal Finetuning Made Scalable
June 24, 2025
Auteurs: Zeju Qiu, Weiyang Liu, Adrian Weller, Bernhard Schölkopf
cs.AI
Samenvatting
Orthogonale finetuning (OFT) biedt een zeer parameter-efficiënte aanpassing
terwijl catastrofaal vergeten wordt voorkomen, maar de hoge rekentijd en
geheugenvraag beperken de praktische inzetbaarheid. Wij identificeren het
kerncomputatieknelpunt in OFT als de gewichtsgerichte implementatie, die
berust op kostbare matrix-matrixvermenigvuldigingen met kubische complexiteit.
Om dit te overwinnen, stellen we OFTv2 voor, een invoergerichte herformulering
die in plaats daarvan matrix-vectorvermenigvuldigingen gebruikt (d.w.z.
matrixvrije berekening), waardoor de rekenkosten worden teruggebracht tot
kwadratisch. We introduceren verder de Cayley-Neumann-parameterisatie, een
efficiënte orthogonale parameterisatie die de matrixinversie in de
Cayley-transformatie benadert via een afgekapte Neumann-reeks. Deze
aanpassingen zorgen ervoor dat OFTv2 tot 10x snellere training en 3x lager
GPU-geheugengebruik kan bereiken zonder in te leveren op prestaties. Daarnaast
breiden we OFTv2 uit om het finetunen van gekwantiseerde foundation-modellen
te ondersteunen en laten we zien dat het de populaire QLoRA overtreft in
trainingsstabiliteit, efficiëntie en geheugengebruik.
English
Orthogonal finetuning (OFT) offers highly parameter-efficient adaptation
while preventing catastrophic forgetting, but its high runtime and memory
demands limit practical deployment. We identify the core computational
bottleneck in OFT as its weight-centric implementation, which relies on costly
matrix-matrix multiplications with cubic complexity. To overcome this, we
propose OFTv2, an input-centric reformulation that instead uses matrix-vector
multiplications (i.e., matrix-free computation), reducing the computational
cost to quadratic. We further introduce the Cayley-Neumann parameterization, an
efficient orthogonal parameterization that approximates the matrix inversion in
Cayley transform via a truncated Neumann series. These modifications allow
OFTv2 to achieve up to 10x faster training and 3x lower GPU memory usage
without compromising performance. In addition, we extend OFTv2 to support
finetuning quantized foundation models and show that it outperforms the popular
QLoRA in training stability, efficiency, and memory usage.