ChatPaper.aiChatPaper

Selektive Aggregation für die Anpassung an niedrigrangige Modelle im föderierten Lernen

Selective Aggregation for Low-Rank Adaptation in Federated Learning

October 2, 2024
Autoren: Pengxin Guo, Shuang Zeng, Yanran Wang, Huijie Fan, Feifei Wang, Liangqiong Qu
cs.AI

Zusammenfassung

Wir untersuchen LoRA im Bereich des föderierten Lernens durch die Analyse der Asymmetrie der erlernten A- und B-Matrizen. Dabei stellen wir fest, dass die A-Matrizen für das Erlernen von generellem Wissen verantwortlich sind, während die B-Matrizen darauf abzielen, kundenspezifisches Wissen zu erfassen. Basierend auf dieser Erkenntnis führen wir Federated Share-A Low-Rank Adaptation (FedSA-LoRA) ein, das zwei niedrigrangige trainierbare Matrizen A und B verwendet, um das Gewichtsupdate zu modellieren, wobei jedoch nur die A-Matrizen mit dem Server für die Aggregation geteilt werden. Darüber hinaus untersuchen wir die Beziehung zwischen den erlernten A- und B-Matrizen in anderen LoRA-Varianten wie rsLoRA und VeRA und enthüllen ein konsistentes Muster. Darauf aufbauend erweitern wir unsere FedSA-LoRA-Methode auf diese LoRA-Varianten, was zu FedSA-rsLoRA und FedSA-VeRA führt. Auf diese Weise etablieren wir ein allgemeines Paradigma zur Integration von LoRA mit FL und bieten damit Anleitung für zukünftige Arbeiten zu nachfolgenden LoRA-Varianten in Kombination mit FL. Umfangreiche experimentelle Ergebnisse zu Aufgaben im Bereich des Verständnisses und der Generierung natürlicher Sprache zeigen die Wirksamkeit der vorgeschlagenen Methode.
English
We investigate LoRA in federated learning through the lens of the asymmetry analysis of the learned A and B matrices. In doing so, we uncover that A matrices are responsible for learning general knowledge, while B matrices focus on capturing client-specific knowledge. Based on this finding, we introduce Federated Share-A Low-Rank Adaptation (FedSA-LoRA), which employs two low-rank trainable matrices A and B to model the weight update, but only A matrices are shared with the server for aggregation. Moreover, we delve into the relationship between the learned A and B matrices in other LoRA variants, such as rsLoRA and VeRA, revealing a consistent pattern. Consequently, we extend our FedSA-LoRA method to these LoRA variants, resulting in FedSA-rsLoRA and FedSA-VeRA. In this way, we establish a general paradigm for integrating LoRA with FL, offering guidance for future work on subsequent LoRA variants combined with FL. Extensive experimental results on natural language understanding and generation tasks demonstrate the effectiveness of the proposed method.

Summary

AI-Generated Summary

PDF193November 16, 2024