FedSVD: Adaptive Orthogonalisierung für privates föderiertes Lernen mit LoRA
FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA
May 19, 2025
Autoren: Seanie Lee, Sangwoo Park, Dong Bok Lee, Dominik Wagner, Haebin Seong, Tobias Bocklet, Juho Lee, Sung Ju Hwang
cs.AI
Zusammenfassung
Low-Rank Adaptation (LoRA), die ein Produkt aus zwei trainierbaren niedrigrangigen Matrizen in eingefrorene vortrainierte Gewichte einführt, wird häufig für das effiziente Feinabstimmen von Sprachmodellen im federierten Lernen (FL) verwendet. Wenn LoRA jedoch mit differenziell privatem stochastischem Gradientenabstieg (DP-SGD) kombiniert wird, kommt es zu einer erheblichen Rauschverstärkung: DP-SGD verzerrt die Gradienten pro Stichprobe, und die Matrixmultiplikation des LoRA-Updates (BA) verstärkt diesen Effekt. Das Einfrieren einer Matrix (z. B. A) reduziert das Rauschen, schränkt jedoch die Ausdrucksfähigkeit des Modells ein und führt oft zu einer suboptimalen Anpassung. Um dies zu beheben, schlagen wir FedSVD vor, eine einfache, aber effektive Methode, die eine globale Neuparametrisierung basierend auf der Singulärwertzerlegung (SVD) einführt. In unserem Ansatz optimiert jeder Client nur die B-Matrix und übermittelt sie an den Server. Der Server aggregiert die B-Matrizen, berechnet das Produkt BA unter Verwendung der vorherigen A-Matrix und faktorisiert das Ergebnis über SVD neu. Dies ergibt eine neue adaptive A-Matrix, die aus den orthonormalen rechten Singulärvektoren von BA besteht, und eine aktualisierte B-Matrix, die die verbleibenden SVD-Komponenten enthält. Diese Neuparametrisierung vermeidet eine quadratische Rauschverstärkung, während A besser die Hauptrichtungen der aggregierten Updates erfassen kann. Darüber hinaus begrenzt die orthonormale Struktur von A die Gradientennormen von B und bewahrt mehr Signal unter DP-SGD, wie unsere theoretische Analyse bestätigt. Infolgedessen verbessert FedSVD die Stabilität und Leistung über eine Vielzahl von Datenschutzeinstellungen und Benchmarks hinweg und übertrifft relevante Baselines sowohl unter privaten als auch nicht-privaten Bedingungen.
English
Low-Rank Adaptation (LoRA), which introduces a product of two trainable
low-rank matrices into frozen pre-trained weights, is widely used for efficient
fine-tuning of language models in federated learning (FL). However, when
combined with differentially private stochastic gradient descent (DP-SGD), LoRA
faces substantial noise amplification: DP-SGD perturbs per-sample gradients,
and the matrix multiplication of the LoRA update (BA) intensifies this
effect. Freezing one matrix (e.g., A) reduces the noise but restricts model
expressiveness, often resulting in suboptimal adaptation. To address this, we
propose FedSVD, a simple yet effective method that introduces a global
reparameterization based on singular value decomposition (SVD). In our
approach, each client optimizes only the B matrix and transmits it to the
server. The server aggregates the B matrices, computes the product BA using
the previous A, and refactorizes the result via SVD. This yields a new
adaptive A composed of the orthonormal right singular vectors of BA, and an
updated B containing the remaining SVD components. This reparameterization
avoids quadratic noise amplification, while allowing A to better capture the
principal directions of the aggregate updates. Moreover, the orthonormal
structure of A bounds the gradient norms of B and preserves more signal
under DP-SGD, as confirmed by our theoretical analysis. As a result, FedSVD
consistently improves stability and performance across a variety of privacy
settings and benchmarks, outperforming relevant baselines under both private
and non-private regimes.Summary
AI-Generated Summary