FedSVD: Ortogonalizzazione Adattiva per l'Apprendimento Federato Privato con LoRA
FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA
May 19, 2025
Autori: Seanie Lee, Sangwoo Park, Dong Bok Lee, Dominik Wagner, Haebin Seong, Tobias Bocklet, Juho Lee, Sung Ju Hwang
cs.AI
Abstract
La Low-Rank Adaptation (LoRA), che introduce un prodotto di due matrici a basso rango addestrabili nei pesi pre-addestrati congelati, è ampiamente utilizzata per il fine-tuning efficiente di modelli linguistici nel federated learning (FL). Tuttavia, quando combinata con lo stochastic gradient descent differenzialmente privato (DP-SGD), LoRA affronta un’amplificazione sostanziale del rumore: DP-SGD perturba i gradienti per campione, e la moltiplicazione matriciale dell’aggiornamento LoRA (BA) intensifica questo effetto. Congelare una matrice (ad esempio, A) riduce il rumore ma limita l’espressività del modello, spesso portando a un adattamento subottimale. Per affrontare questo problema, proponiamo FedSVD, un metodo semplice ma efficace che introduce una ricalibrazione globale basata sulla decomposizione ai valori singolari (SVD). Nel nostro approccio, ogni client ottimizza solo la matrice B e la trasmette al server. Il server aggrega le matrici B, calcola il prodotto BA utilizzando la precedente A, e rifattorizza il risultato tramite SVD. Questo produce una nuova A adattiva composta dai vettori singolari destri ortonormali di BA, e una B aggiornata contenente i restanti componenti SVD. Questa ricalibrazione evita l’amplificazione quadratica del rumore, consentendo ad A di catturare meglio le direzioni principali degli aggiornamenti aggregati. Inoltre, la struttura ortonormale di A limita le norme del gradiente di B e preserva più segnale sotto DP-SGD, come confermato dalla nostra analisi teorica. Di conseguenza, FedSVD migliora costantemente la stabilità e le prestazioni in una varietà di impostazioni di privacy e benchmark, superando le baseline rilevanti sia in regimi privati che non privati.
English
Low-Rank Adaptation (LoRA), which introduces a product of two trainable
low-rank matrices into frozen pre-trained weights, is widely used for efficient
fine-tuning of language models in federated learning (FL). However, when
combined with differentially private stochastic gradient descent (DP-SGD), LoRA
faces substantial noise amplification: DP-SGD perturbs per-sample gradients,
and the matrix multiplication of the LoRA update (BA) intensifies this
effect. Freezing one matrix (e.g., A) reduces the noise but restricts model
expressiveness, often resulting in suboptimal adaptation. To address this, we
propose FedSVD, a simple yet effective method that introduces a global
reparameterization based on singular value decomposition (SVD). In our
approach, each client optimizes only the B matrix and transmits it to the
server. The server aggregates the B matrices, computes the product BA using
the previous A, and refactorizes the result via SVD. This yields a new
adaptive A composed of the orthonormal right singular vectors of BA, and an
updated B containing the remaining SVD components. This reparameterization
avoids quadratic noise amplification, while allowing A to better capture the
principal directions of the aggregate updates. Moreover, the orthonormal
structure of A bounds the gradient norms of B and preserves more signal
under DP-SGD, as confirmed by our theoretical analysis. As a result, FedSVD
consistently improves stability and performance across a variety of privacy
settings and benchmarks, outperforming relevant baselines under both private
and non-private regimes.