ChatPaper.aiChatPaper

Agregação Seletiva para Adaptação de Baixa Ordem em Aprendizado Federado

Selective Aggregation for Low-Rank Adaptation in Federated Learning

October 2, 2024
Autores: Pengxin Guo, Shuang Zeng, Yanran Wang, Huijie Fan, Feifei Wang, Liangqiong Qu
cs.AI

Resumo

Investigamos LoRA no aprendizado federado através da análise da assimetria das matrizes aprendidas A e B. Ao fazê-lo, descobrimos que as matrizes A são responsáveis por aprender conhecimento geral, enquanto as matrizes B se concentram em capturar conhecimento específico do cliente. Com base nessa descoberta, introduzimos a Adaptação de Baixa Patente Compartilhada Federada (FedSA-LoRA), que utiliza duas matrizes treináveis de baixa patente A e B para modelar a atualização de pesos, mas apenas as matrizes A são compartilhadas com o servidor para agregação. Além disso, aprofundamos a relação entre as matrizes A e B aprendidas em outras variantes de LoRA, como rsLoRA e VeRA, revelando um padrão consistente. Consequentemente, estendemos nosso método FedSA-LoRA para essas variantes de LoRA, resultando em FedSA-rsLoRA e FedSA-VeRA. Dessa forma, estabelecemos um paradigma geral para integrar LoRA com FL, oferecendo orientação para trabalhos futuros sobre variantes subsequentes de LoRA combinadas com FL. Resultados experimentais extensivos em tarefas de compreensão e geração de linguagem natural demonstram a eficácia do método proposto.
English
We investigate LoRA in federated learning through the lens of the asymmetry analysis of the learned A and B matrices. In doing so, we uncover that A matrices are responsible for learning general knowledge, while B matrices focus on capturing client-specific knowledge. Based on this finding, we introduce Federated Share-A Low-Rank Adaptation (FedSA-LoRA), which employs two low-rank trainable matrices A and B to model the weight update, but only A matrices are shared with the server for aggregation. Moreover, we delve into the relationship between the learned A and B matrices in other LoRA variants, such as rsLoRA and VeRA, revealing a consistent pattern. Consequently, we extend our FedSA-LoRA method to these LoRA variants, resulting in FedSA-rsLoRA and FedSA-VeRA. In this way, we establish a general paradigm for integrating LoRA with FL, offering guidance for future work on subsequent LoRA variants combined with FL. Extensive experimental results on natural language understanding and generation tasks demonstrate the effectiveness of the proposed method.
PDF193November 16, 2024