FedSVD: Adaptieve Orthogonalisatie voor Privacybewuste Federated Learning met LoRA
FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA
May 19, 2025
Auteurs: Seanie Lee, Sangwoo Park, Dong Bok Lee, Dominik Wagner, Haebin Seong, Tobias Bocklet, Juho Lee, Sung Ju Hwang
cs.AI
Samenvatting
Low-Rank Adaptation (LoRA), waarbij een product van twee trainbare laag-rang matrices wordt geïntroduceerd in bevroren vooraf getrainde gewichten, wordt veel gebruikt voor efficiënte fine-tuning van taalmodelen in federated learning (FL). Wanneer het echter wordt gecombineerd met differentially private stochastic gradient descent (DP-SGD), ondervindt LoRA aanzienlijke ruisversterking: DP-SGD verstoort per-sample gradients, en de matrixvermenigvuldiging van de LoRA-update (BA) versterkt dit effect. Het bevriezen van één matrix (bijvoorbeeld A) vermindert de ruis maar beperkt de expressiviteit van het model, wat vaak resulteert in suboptimale aanpassing. Om dit aan te pakken, stellen we FedSVD voor, een eenvoudige maar effectieve methode die een globale herparameterisatie introduceert op basis van singular value decomposition (SVD). In onze aanpak optimaliseert elke client alleen de B-matrix en stuurt deze naar de server. De server aggregeert de B-matrices, berekent het product BA met de vorige A, en herfactoriseert het resultaat via SVD. Dit levert een nieuwe adaptieve A op, samengesteld uit de orthonormale rechter singuliere vectoren van BA, en een bijgewerkte B die de resterende SVD-componenten bevat. Deze herparameterisatie vermijdt kwadratische ruisversterking, terwijl A in staat wordt gesteld om de belangrijkste richtingen van de geaggregeerde updates beter vast te leggen. Bovendien begrenst de orthonormale structuur van A de gradientnormen van B en behoudt het meer signaal onder DP-SGD, zoals bevestigd door onze theoretische analyse. Als gevolg hiervan verbetert FedSVD consistent de stabiliteit en prestaties over een verscheidenheid aan privacy-instellingen en benchmarks, en overtreft het relevante baseline-methoden onder zowel private als niet-private regimes.
English
Low-Rank Adaptation (LoRA), which introduces a product of two trainable
low-rank matrices into frozen pre-trained weights, is widely used for efficient
fine-tuning of language models in federated learning (FL). However, when
combined with differentially private stochastic gradient descent (DP-SGD), LoRA
faces substantial noise amplification: DP-SGD perturbs per-sample gradients,
and the matrix multiplication of the LoRA update (BA) intensifies this
effect. Freezing one matrix (e.g., A) reduces the noise but restricts model
expressiveness, often resulting in suboptimal adaptation. To address this, we
propose FedSVD, a simple yet effective method that introduces a global
reparameterization based on singular value decomposition (SVD). In our
approach, each client optimizes only the B matrix and transmits it to the
server. The server aggregates the B matrices, computes the product BA using
the previous A, and refactorizes the result via SVD. This yields a new
adaptive A composed of the orthonormal right singular vectors of BA, and an
updated B containing the remaining SVD components. This reparameterization
avoids quadratic noise amplification, while allowing A to better capture the
principal directions of the aggregate updates. Moreover, the orthonormal
structure of A bounds the gradient norms of B and preserves more signal
under DP-SGD, as confirmed by our theoretical analysis. As a result, FedSVD
consistently improves stability and performance across a variety of privacy
settings and benchmarks, outperforming relevant baselines under both private
and non-private regimes.Summary
AI-Generated Summary