Selektive Aggregation für die Anpassung an niedrigrangige Modelle im föderierten Lernen
Selective Aggregation for Low-Rank Adaptation in Federated Learning
October 2, 2024
Autoren: Pengxin Guo, Shuang Zeng, Yanran Wang, Huijie Fan, Feifei Wang, Liangqiong Qu
cs.AI
Zusammenfassung
Wir untersuchen LoRA im Bereich des föderierten Lernens durch die Analyse der Asymmetrie der erlernten A- und B-Matrizen. Dabei stellen wir fest, dass die A-Matrizen für das Erlernen von generellem Wissen verantwortlich sind, während die B-Matrizen darauf abzielen, kundenspezifisches Wissen zu erfassen. Basierend auf dieser Erkenntnis führen wir Federated Share-A Low-Rank Adaptation (FedSA-LoRA) ein, das zwei niedrigrangige trainierbare Matrizen A und B verwendet, um das Gewichtsupdate zu modellieren, wobei jedoch nur die A-Matrizen mit dem Server für die Aggregation geteilt werden. Darüber hinaus untersuchen wir die Beziehung zwischen den erlernten A- und B-Matrizen in anderen LoRA-Varianten wie rsLoRA und VeRA und enthüllen ein konsistentes Muster. Darauf aufbauend erweitern wir unsere FedSA-LoRA-Methode auf diese LoRA-Varianten, was zu FedSA-rsLoRA und FedSA-VeRA führt. Auf diese Weise etablieren wir ein allgemeines Paradigma zur Integration von LoRA mit FL und bieten damit Anleitung für zukünftige Arbeiten zu nachfolgenden LoRA-Varianten in Kombination mit FL. Umfangreiche experimentelle Ergebnisse zu Aufgaben im Bereich des Verständnisses und der Generierung natürlicher Sprache zeigen die Wirksamkeit der vorgeschlagenen Methode.
English
We investigate LoRA in federated learning through the lens of the asymmetry
analysis of the learned A and B matrices. In doing so, we uncover that A
matrices are responsible for learning general knowledge, while B matrices
focus on capturing client-specific knowledge. Based on this finding, we
introduce Federated Share-A Low-Rank Adaptation (FedSA-LoRA), which employs two
low-rank trainable matrices A and B to model the weight update, but only
A matrices are shared with the server for aggregation. Moreover, we delve
into the relationship between the learned A and B matrices in other LoRA
variants, such as rsLoRA and VeRA, revealing a consistent pattern.
Consequently, we extend our FedSA-LoRA method to these LoRA variants, resulting
in FedSA-rsLoRA and FedSA-VeRA. In this way, we establish a general paradigm
for integrating LoRA with FL, offering guidance for future work on subsequent
LoRA variants combined with FL. Extensive experimental results on natural
language understanding and generation tasks demonstrate the effectiveness of
the proposed method.Summary
AI-Generated Summary