Agrégation sélective pour l'adaptation à faible rang dans l'apprentissage fédéré
Selective Aggregation for Low-Rank Adaptation in Federated Learning
October 2, 2024
Auteurs: Pengxin Guo, Shuang Zeng, Yanran Wang, Huijie Fan, Feifei Wang, Liangqiong Qu
cs.AI
Résumé
Nous étudions LoRA dans l'apprentissage fédéré à travers l'analyse de l'asymétrie des matrices A et B apprises. Ce faisant, nous découvrons que les matrices A sont responsables de l'apprentissage des connaissances générales, tandis que les matrices B se concentrent sur la capture des connaissances spécifiques aux clients. Sur la base de cette découverte, nous introduisons l'Adaptation à Faible Rang Partagée Fédérée (FedSA-LoRA), qui utilise deux matrices A et B entraînables à faible rang pour modéliser la mise à jour des poids, mais seules les matrices A sont partagées avec le serveur pour l'agrégation. De plus, nous explorons la relation entre les matrices A et B apprises dans d'autres variantes de LoRA, telles que rsLoRA et VeRA, révélant un schéma cohérent. Par conséquent, nous étendons notre méthode FedSA-LoRA à ces variantes de LoRA, donnant ainsi FedSA-rsLoRA et FedSA-VeRA. De cette manière, nous établissons un paradigme général pour intégrer LoRA avec l'apprentissage fédéré, offrant des orientations pour les travaux futurs sur les variantes de LoRA ultérieures combinées avec l'apprentissage fédéré. Des résultats expérimentaux approfondis sur des tâches de compréhension et de génération de langage naturel démontrent l'efficacité de la méthode proposée.
English
We investigate LoRA in federated learning through the lens of the asymmetry
analysis of the learned A and B matrices. In doing so, we uncover that A
matrices are responsible for learning general knowledge, while B matrices
focus on capturing client-specific knowledge. Based on this finding, we
introduce Federated Share-A Low-Rank Adaptation (FedSA-LoRA), which employs two
low-rank trainable matrices A and B to model the weight update, but only
A matrices are shared with the server for aggregation. Moreover, we delve
into the relationship between the learned A and B matrices in other LoRA
variants, such as rsLoRA and VeRA, revealing a consistent pattern.
Consequently, we extend our FedSA-LoRA method to these LoRA variants, resulting
in FedSA-rsLoRA and FedSA-VeRA. In this way, we establish a general paradigm
for integrating LoRA with FL, offering guidance for future work on subsequent
LoRA variants combined with FL. Extensive experimental results on natural
language understanding and generation tasks demonstrate the effectiveness of
the proposed method.Summary
AI-Generated Summary