ChatPaper.aiChatPaper

FedSVD: LoRA를 활용한 개인 정보 보호 연합 학습을 위한 적응형 직교화

FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA

May 19, 2025
저자: Seanie Lee, Sangwoo Park, Dong Bok Lee, Dominik Wagner, Haebin Seong, Tobias Bocklet, Juho Lee, Sung Ju Hwang
cs.AI

초록

저순위 적응(Low-Rank Adaptation, LoRA)은 고정된 사전 학습된 가중치에 두 개의 학습 가능한 저순위 행렬의 곱을 도입하여, 연합 학습(Federated Learning, FL)에서 언어 모델의 효율적인 미세 조정에 널리 사용됩니다. 그러나 차등 프라이버시 확률적 경사 하강법(Differentially Private Stochastic Gradient Descent, DP-SGD)과 결합될 경우, LoRA는 상당한 노이즈 증폭 문제에 직면합니다: DP-SGD는 개별 샘플의 그래디언트를 교란시키며, LoRA 업데이트(BA)의 행렬 곱셈은 이러한 효과를 더욱 증폭시킵니다. 한 행렬(예: A)을 고정하면 노이즈는 줄어들지만 모델의 표현력이 제한되어 종종 최적의 적응을 달성하지 못합니다. 이를 해결하기 위해, 우리는 특이값 분해(Singular Value Decomposition, SVD)를 기반으로 한 전역 재매개변수화를 도입하는 간단하면서도 효과적인 방법인 FedSVD를 제안합니다. 우리의 접근 방식에서, 각 클라이언트는 B 행렬만 최적화하고 이를 서버로 전송합니다. 서버는 B 행렬들을 집계하고 이전 A를 사용하여 BA 곱을 계산한 후, SVD를 통해 결과를 재분해합니다. 이를 통해 BA의 직교 정규화된 오른쪽 특이 벡터로 구성된 새로운 적응형 A와, 나머지 SVD 성분을 포함한 업데이트된 B를 얻습니다. 이 재매개변수화는 이차 노이즈 증폭을 피하면서도 A가 집계 업데이트의 주요 방향을 더 잘 포착할 수 있도록 합니다. 또한, A의 직교 정규 구조는 B의 그래디언트 노름을 제한하고 DP-SGD 하에서 더 많은 신호를 보존합니다. 이는 우리의 이론적 분석을 통해 확인되었습니다. 결과적으로, FedSVD는 다양한 프라이버시 설정과 벤치마크에서 안정성과 성능을 지속적으로 개선하며, 프라이버시 및 비프라이버시 체제 모두에서 관련 기준선을 능가합니다.
English
Low-Rank Adaptation (LoRA), which introduces a product of two trainable low-rank matrices into frozen pre-trained weights, is widely used for efficient fine-tuning of language models in federated learning (FL). However, when combined with differentially private stochastic gradient descent (DP-SGD), LoRA faces substantial noise amplification: DP-SGD perturbs per-sample gradients, and the matrix multiplication of the LoRA update (BA) intensifies this effect. Freezing one matrix (e.g., A) reduces the noise but restricts model expressiveness, often resulting in suboptimal adaptation. To address this, we propose FedSVD, a simple yet effective method that introduces a global reparameterization based on singular value decomposition (SVD). In our approach, each client optimizes only the B matrix and transmits it to the server. The server aggregates the B matrices, computes the product BA using the previous A, and refactorizes the result via SVD. This yields a new adaptive A composed of the orthonormal right singular vectors of BA, and an updated B containing the remaining SVD components. This reparameterization avoids quadratic noise amplification, while allowing A to better capture the principal directions of the aggregate updates. Moreover, the orthonormal structure of A bounds the gradient norms of B and preserves more signal under DP-SGD, as confirmed by our theoretical analysis. As a result, FedSVD consistently improves stability and performance across a variety of privacy settings and benchmarks, outperforming relevant baselines under both private and non-private regimes.

Summary

AI-Generated Summary

PDF202May 20, 2025