ChatPaper.aiChatPaper

FedSVD : Orthogonalisation Adaptative pour l'Apprentissage Fédéré Privé avec LoRA

FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA

May 19, 2025
Auteurs: Seanie Lee, Sangwoo Park, Dong Bok Lee, Dominik Wagner, Haebin Seong, Tobias Bocklet, Juho Lee, Sung Ju Hwang
cs.AI

Résumé

L'adaptation à faible rang (LoRA), qui introduit un produit de deux matrices de faible rang entraînables dans des poids pré-entraînés figés, est largement utilisée pour le réglage fin efficace des modèles de langage en apprentissage fédéré (FL). Cependant, lorsqu'elle est combinée à la descente de gradient stochastique à confidentialité différentielle (DP-SGD), LoRA est confrontée à une amplification substantielle du bruit : DP-SGD perturbe les gradients par échantillon, et la multiplication matricielle de la mise à jour LoRA (BA) intensifie cet effet. Le gel d'une matrice (par exemple, A) réduit le bruit mais limite l'expressivité du modèle, entraînant souvent une adaptation sous-optimale. Pour résoudre ce problème, nous proposons FedSVD, une méthode simple mais efficace qui introduit une reparamétrisation globale basée sur la décomposition en valeurs singulières (SVD). Dans notre approche, chaque client optimise uniquement la matrice B et la transmet au serveur. Le serveur agrège les matrices B, calcule le produit BA en utilisant le A précédent, et refactorise le résultat via SVD. Cela produit un nouveau A adaptatif composé des vecteurs singuliers droits orthonormaux de BA, et un B mis à jour contenant les composantes SVD restantes. Cette reparamétrisation évite l'amplification quadratique du bruit, tout en permettant à A de mieux capturer les directions principales des mises à jour agrégées. De plus, la structure orthonormale de A borne les normes de gradient de B et préserve davantage de signal sous DP-SGD, comme le confirme notre analyse théorique. En conséquence, FedSVD améliore de manière constante la stabilité et les performances dans une variété de paramètres de confidentialité et de benchmarks, surpassant les bases de référence pertinentes dans des régimes privés et non privés.
English
Low-Rank Adaptation (LoRA), which introduces a product of two trainable low-rank matrices into frozen pre-trained weights, is widely used for efficient fine-tuning of language models in federated learning (FL). However, when combined with differentially private stochastic gradient descent (DP-SGD), LoRA faces substantial noise amplification: DP-SGD perturbs per-sample gradients, and the matrix multiplication of the LoRA update (BA) intensifies this effect. Freezing one matrix (e.g., A) reduces the noise but restricts model expressiveness, often resulting in suboptimal adaptation. To address this, we propose FedSVD, a simple yet effective method that introduces a global reparameterization based on singular value decomposition (SVD). In our approach, each client optimizes only the B matrix and transmits it to the server. The server aggregates the B matrices, computes the product BA using the previous A, and refactorizes the result via SVD. This yields a new adaptive A composed of the orthonormal right singular vectors of BA, and an updated B containing the remaining SVD components. This reparameterization avoids quadratic noise amplification, while allowing A to better capture the principal directions of the aggregate updates. Moreover, the orthonormal structure of A bounds the gradient norms of B and preserves more signal under DP-SGD, as confirmed by our theoretical analysis. As a result, FedSVD consistently improves stability and performance across a variety of privacy settings and benchmarks, outperforming relevant baselines under both private and non-private regimes.

Summary

AI-Generated Summary

PDF203May 20, 2025