Селективная агрегация для адаптации низкоранговых моделей в федеративном обучении
Selective Aggregation for Low-Rank Adaptation in Federated Learning
October 2, 2024
Авторы: Pengxin Guo, Shuang Zeng, Yanran Wang, Huijie Fan, Feifei Wang, Liangqiong Qu
cs.AI
Аннотация
Мы исследуем LoRA в федеративном обучении через призму анализа асимметрии обученных матриц A и B. Таким образом, мы обнаруживаем, что матрицы A отвечают за изучение общих знаний, в то время как матрицы B сосредотачиваются на захвате клиентоориентированных знаний. Основываясь на этом открытии, мы представляем метод Federated Share-A Low-Rank Adaptation (FedSA-LoRA), который использует две низкоранговые обучаемые матрицы A и B для моделирования обновления весов, но только матрицы A передаются на сервер для агрегации. Более того, мы погружаемся в отношения между изученными матрицами A и B в других вариантах LoRA, таких как rsLoRA и VeRA, раскрывая последовательный шаблон. В результате мы расширяем наш метод FedSA-LoRA на эти варианты LoRA, что приводит к появлению FedSA-rsLoRA и FedSA-VeRA. Таким образом, мы устанавливаем общую парадигму для интеграции LoRA с FL, предлагая руководство для будущих работ по последующим вариантам LoRA, объединенным с FL. Обширные экспериментальные результаты на задачах понимания и генерации естественного языка демонстрируют эффективность предложенного метода.
English
We investigate LoRA in federated learning through the lens of the asymmetry
analysis of the learned A and B matrices. In doing so, we uncover that A
matrices are responsible for learning general knowledge, while B matrices
focus on capturing client-specific knowledge. Based on this finding, we
introduce Federated Share-A Low-Rank Adaptation (FedSA-LoRA), which employs two
low-rank trainable matrices A and B to model the weight update, but only
A matrices are shared with the server for aggregation. Moreover, we delve
into the relationship between the learned A and B matrices in other LoRA
variants, such as rsLoRA and VeRA, revealing a consistent pattern.
Consequently, we extend our FedSA-LoRA method to these LoRA variants, resulting
in FedSA-rsLoRA and FedSA-VeRA. In this way, we establish a general paradigm
for integrating LoRA with FL, offering guidance for future work on subsequent
LoRA variants combined with FL. Extensive experimental results on natural
language understanding and generation tasks demonstrate the effectiveness of
the proposed method.Summary
AI-Generated Summary