Селективная агрегация для адаптации низкоранговых моделей в федеративном обучении

Аннотация

Мы исследуем LoRA в федеративном обучении через призму анализа асимметрии обученных матриц A и B. Таким образом, мы обнаруживаем, что матрицы A отвечают за изучение общих знаний, в то время как матрицы B сосредотачиваются на захвате клиентоориентированных знаний. Основываясь на этом открытии, мы представляем метод Federated Share-A Low-Rank Adaptation (FedSA-LoRA), который использует две низкоранговые обучаемые матрицы A и B для моделирования обновления весов, но только матрицы A передаются на сервер для агрегации. Более того, мы погружаемся в отношения между изученными матрицами A и B в других вариантах LoRA, таких как rsLoRA и VeRA, раскрывая последовательный шаблон. В результате мы расширяем наш метод FedSA-LoRA на эти варианты LoRA, что приводит к появлению FedSA-rsLoRA и FedSA-VeRA. Таким образом, мы устанавливаем общую парадигму для интеграции LoRA с FL, предлагая руководство для будущих работ по последующим вариантам LoRA, объединенным с FL. Обширные экспериментальные результаты на задачах понимания и генерации естественного языка демонстрируют эффективность предложенного метода.

English

We investigate LoRA in federated learning through the lens of the asymmetry analysis of the learned A and B matrices. In doing so, we uncover that A matrices are responsible for learning general knowledge, while B matrices focus on capturing client-specific knowledge. Based on this finding, we introduce Federated Share-A Low-Rank Adaptation (FedSA-LoRA), which employs two low-rank trainable matrices A and B to model the weight update, but only A matrices are shared with the server for aggregation. Moreover, we delve into the relationship between the learned A and B matrices in other LoRA variants, such as rsLoRA and VeRA, revealing a consistent pattern. Consequently, we extend our FedSA-LoRA method to these LoRA variants, resulting in FedSA-rsLoRA and FedSA-VeRA. In this way, we establish a general paradigm for integrating LoRA with FL, offering guidance for future work on subsequent LoRA variants combined with FL. Extensive experimental results on natural language understanding and generation tasks demonstrate the effectiveness of the proposed method.

Селективная агрегация для адаптации низкоранговых моделей в федеративном обучении

Selective Aggregation for Low-Rank Adaptation in Federated Learning

Аннотация

Support