Ottimizzazione Ortogonale Resa Scalabile
Orthogonal Finetuning Made Scalable
June 24, 2025
Autori: Zeju Qiu, Weiyang Liu, Adrian Weller, Bernhard Schölkopf
cs.AI
Abstract
L'ottimizzazione ortogonale (OFT) offre un adattamento altamente efficiente in termini di parametri prevenendo l'oblio catastrofico, ma le sue elevate esigenze di tempo di esecuzione e memoria ne limitano l'implementazione pratica. Identifichiamo il principale collo di bottiglia computazionale nell'OFT nella sua implementazione centrata sui pesi, che si basa su costose moltiplicazioni matrice-matrice con complessità cubica. Per superare questo problema, proponiamo OFTv2, una riformulazione centrata sugli input che utilizza invece moltiplicazioni matrice-vettore (ovvero calcolo senza matrice), riducendo il costo computazionale a quadratico. Introduciamo inoltre la parametrizzazione Cayley-Neumann, una parametrizzazione ortogonale efficiente che approssima l'inversione di matrice nella trasformata di Cayley tramite una serie di Neumann troncata. Queste modifiche consentono a OFTv2 di ottenere un addestramento fino a 10 volte più veloce e un utilizzo della memoria GPU 3 volte inferiore senza compromettere le prestazioni. Inoltre, estendiamo OFTv2 per supportare l'ottimizzazione di modelli di base quantizzati e dimostriamo che supera il popolare QLoRA in termini di stabilità dell'addestramento, efficienza e utilizzo della memoria.
English
Orthogonal finetuning (OFT) offers highly parameter-efficient adaptation
while preventing catastrophic forgetting, but its high runtime and memory
demands limit practical deployment. We identify the core computational
bottleneck in OFT as its weight-centric implementation, which relies on costly
matrix-matrix multiplications with cubic complexity. To overcome this, we
propose OFTv2, an input-centric reformulation that instead uses matrix-vector
multiplications (i.e., matrix-free computation), reducing the computational
cost to quadratic. We further introduce the Cayley-Neumann parameterization, an
efficient orthogonal parameterization that approximates the matrix inversion in
Cayley transform via a truncated Neumann series. These modifications allow
OFTv2 to achieve up to 10x faster training and 3x lower GPU memory usage
without compromising performance. In addition, we extend OFTv2 to support
finetuning quantized foundation models and show that it outperforms the popular
QLoRA in training stability, efficiency, and memory usage.