Agregación Selectiva para Adaptación de Bajo Rango en Aprendizaje Federado
Selective Aggregation for Low-Rank Adaptation in Federated Learning
October 2, 2024
Autores: Pengxin Guo, Shuang Zeng, Yanran Wang, Huijie Fan, Feifei Wang, Liangqiong Qu
cs.AI
Resumen
Investigamos LoRA en el aprendizaje federado a través del análisis de asimetría de las matrices A y B aprendidas. Al hacerlo, descubrimos que las matrices A son responsables de aprender conocimiento general, mientras que las matrices B se centran en capturar conocimiento específico del cliente. Basándonos en este hallazgo, presentamos Adaptación de Bajo Rango Compartida Federada (FedSA-LoRA), que emplea dos matrices entrenables de bajo rango A y B para modelar la actualización de pesos, pero solo las matrices A se comparten con el servidor para su agregación. Además, indagamos en la relación entre las matrices A y B aprendidas en otras variantes de LoRA, como rsLoRA y VeRA, revelando un patrón consistente. En consecuencia, extendemos nuestro método FedSA-LoRA a estas variantes de LoRA, dando lugar a FedSA-rsLoRA y FedSA-VeRA. De esta manera, establecemos un paradigma general para integrar LoRA con FL, ofreciendo orientación para trabajos futuros sobre variantes de LoRA posteriores combinadas con FL. Los extensos resultados experimentales en tareas de comprensión y generación de lenguaje natural demuestran la efectividad del método propuesto.
English
We investigate LoRA in federated learning through the lens of the asymmetry
analysis of the learned A and B matrices. In doing so, we uncover that A
matrices are responsible for learning general knowledge, while B matrices
focus on capturing client-specific knowledge. Based on this finding, we
introduce Federated Share-A Low-Rank Adaptation (FedSA-LoRA), which employs two
low-rank trainable matrices A and B to model the weight update, but only
A matrices are shared with the server for aggregation. Moreover, we delve
into the relationship between the learned A and B matrices in other LoRA
variants, such as rsLoRA and VeRA, revealing a consistent pattern.
Consequently, we extend our FedSA-LoRA method to these LoRA variants, resulting
in FedSA-rsLoRA and FedSA-VeRA. In this way, we establish a general paradigm
for integrating LoRA with FL, offering guidance for future work on subsequent
LoRA variants combined with FL. Extensive experimental results on natural
language understanding and generation tasks demonstrate the effectiveness of
the proposed method.Summary
AI-Generated Summary