ChatPaper.aiChatPaper

FedSVD: Адаптивная ортогонализация для приватного федеративного обучения с использованием LoRA

FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA

May 19, 2025
Авторы: Seanie Lee, Sangwoo Park, Dong Bok Lee, Dominik Wagner, Haebin Seong, Tobias Bocklet, Juho Lee, Sung Ju Hwang
cs.AI

Аннотация

Метод Low-Rank Adaptation (LoRA), который вводит произведение двух обучаемых низкоранговых матриц в замороженные предобученные веса, широко используется для эффективной тонкой настройки языковых моделей в федеративном обучении (FL). Однако при сочетании с дифференциально приватным стохастическим градиентным спуском (DP-SGD) LoRA сталкивается с существенным усилением шума: DP-SGD искажает градиенты для каждого образца, а матричное умножение обновления LoRA (BA) усиливает этот эффект. Заморозка одной матрицы (например, A) снижает шум, но ограничивает выразительность модели, что часто приводит к неоптимальной адаптации. Для решения этой проблемы мы предлагаем FedSVD — простой, но эффективный метод, который вводит глобальную перепараметризацию на основе сингулярного разложения (SVD). В нашем подходе каждый клиент оптимизирует только матрицу B и передает ее на сервер. Сервер агрегирует матрицы B, вычисляет произведение BA с использованием предыдущей матрицы A и переразлагает результат с помощью SVD. Это дает новую адаптивную матрицу A, состоящую из ортонормированных правых сингулярных векторов BA, и обновленную матрицу B, содержащую оставшиеся компоненты SVD. Такая перепараметризация позволяет избежать квадратичного усиления шума, при этом матрица A лучше захватывает главные направления агрегированных обновлений. Более того, ортонормированная структура A ограничивает нормы градиентов B и сохраняет больше сигнала при использовании DP-SGD, что подтверждается нашим теоретическим анализом. В результате FedSVD стабильно улучшает устойчивость и производительность в различных настройках приватности и на различных тестовых наборах, превосходя соответствующие базовые методы как в приватных, так и в не приватных режимах.
English
Low-Rank Adaptation (LoRA), which introduces a product of two trainable low-rank matrices into frozen pre-trained weights, is widely used for efficient fine-tuning of language models in federated learning (FL). However, when combined with differentially private stochastic gradient descent (DP-SGD), LoRA faces substantial noise amplification: DP-SGD perturbs per-sample gradients, and the matrix multiplication of the LoRA update (BA) intensifies this effect. Freezing one matrix (e.g., A) reduces the noise but restricts model expressiveness, often resulting in suboptimal adaptation. To address this, we propose FedSVD, a simple yet effective method that introduces a global reparameterization based on singular value decomposition (SVD). In our approach, each client optimizes only the B matrix and transmits it to the server. The server aggregates the B matrices, computes the product BA using the previous A, and refactorizes the result via SVD. This yields a new adaptive A composed of the orthonormal right singular vectors of BA, and an updated B containing the remaining SVD components. This reparameterization avoids quadratic noise amplification, while allowing A to better capture the principal directions of the aggregate updates. Moreover, the orthonormal structure of A bounds the gradient norms of B and preserves more signal under DP-SGD, as confirmed by our theoretical analysis. As a result, FedSVD consistently improves stability and performance across a variety of privacy settings and benchmarks, outperforming relevant baselines under both private and non-private regimes.

Summary

AI-Generated Summary

PDF202May 20, 2025