Ottimizzazione Ortogonale Resa Scalabile

Abstract

L'ottimizzazione ortogonale (OFT) offre un adattamento altamente efficiente in termini di parametri prevenendo l'oblio catastrofico, ma le sue elevate esigenze di tempo di esecuzione e memoria ne limitano l'implementazione pratica. Identifichiamo il principale collo di bottiglia computazionale nell'OFT nella sua implementazione centrata sui pesi, che si basa su costose moltiplicazioni matrice-matrice con complessità cubica. Per superare questo problema, proponiamo OFTv2, una riformulazione centrata sugli input che utilizza invece moltiplicazioni matrice-vettore (ovvero calcolo senza matrice), riducendo il costo computazionale a quadratico. Introduciamo inoltre la parametrizzazione Cayley-Neumann, una parametrizzazione ortogonale efficiente che approssima l'inversione di matrice nella trasformata di Cayley tramite una serie di Neumann troncata. Queste modifiche consentono a OFTv2 di ottenere un addestramento fino a 10 volte più veloce e un utilizzo della memoria GPU 3 volte inferiore senza compromettere le prestazioni. Inoltre, estendiamo OFTv2 per supportare l'ottimizzazione di modelli di base quantizzati e dimostriamo che supera il popolare QLoRA in termini di stabilità dell'addestramento, efficienza e utilizzo della memoria.

English

Orthogonal finetuning (OFT) offers highly parameter-efficient adaptation while preventing catastrophic forgetting, but its high runtime and memory demands limit practical deployment. We identify the core computational bottleneck in OFT as its weight-centric implementation, which relies on costly matrix-matrix multiplications with cubic complexity. To overcome this, we propose OFTv2, an input-centric reformulation that instead uses matrix-vector multiplications (i.e., matrix-free computation), reducing the computational cost to quadratic. We further introduce the Cayley-Neumann parameterization, an efficient orthogonal parameterization that approximates the matrix inversion in Cayley transform via a truncated Neumann series. These modifications allow OFTv2 to achieve up to 10x faster training and 3x lower GPU memory usage without compromising performance. In addition, we extend OFTv2 to support finetuning quantized foundation models and show that it outperforms the popular QLoRA in training stability, efficiency, and memory usage.

Ottimizzazione Ortogonale Resa Scalabile

Orthogonal Finetuning Made Scalable

Abstract

Support