FedSVD: Ortogonalização Adaptativa para Aprendizado Federado Privado com LoRA
FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA
May 19, 2025
Autores: Seanie Lee, Sangwoo Park, Dong Bok Lee, Dominik Wagner, Haebin Seong, Tobias Bocklet, Juho Lee, Sung Ju Hwang
cs.AI
Resumo
A Adaptação de Baixo Rank (LoRA), que introduz um produto de duas matrizes treináveis de baixo rank em pesos pré-treinados congelados, é amplamente utilizada para o ajuste fino eficiente de modelos de linguagem em aprendizado federado (FL). No entanto, quando combinada com o gradiente descendente estocástico com privacidade diferencial (DP-SGD), a LoRA enfrenta uma amplificação substancial de ruído: o DP-SGD perturba os gradientes por amostra, e a multiplicação de matrizes da atualização da LoRA (BA) intensifica esse efeito. Congelar uma matriz (por exemplo, A) reduz o ruído, mas restringe a expressividade do modelo, frequentemente resultando em uma adaptação subótima. Para resolver isso, propomos o FedSVD, um método simples, porém eficaz, que introduz uma reparametrização global baseada na decomposição em valores singulares (SVD). Em nossa abordagem, cada cliente otimiza apenas a matriz B e a transmite ao servidor. O servidor agrega as matrizes B, calcula o produto BA usando a matriz A anterior e refatoriza o resultado via SVD. Isso produz uma nova matriz adaptativa A composta pelos vetores singulares direitos ortonormais de BA, e uma matriz B atualizada contendo os componentes restantes da SVD. Essa reparametrização evita a amplificação quadrática de ruído, ao mesmo tempo em que permite que A capture melhor as direções principais das atualizações agregadas. Além disso, a estrutura ortonormal de A limita as normas dos gradientes de B e preserva mais sinal sob o DP-SGD, conforme confirmado por nossa análise teórica. Como resultado, o FedSVD melhora consistentemente a estabilidade e o desempenho em uma variedade de configurações de privacidade e benchmarks, superando as linhas de base relevantes tanto em regimes privados quanto não privados.
English
Low-Rank Adaptation (LoRA), which introduces a product of two trainable
low-rank matrices into frozen pre-trained weights, is widely used for efficient
fine-tuning of language models in federated learning (FL). However, when
combined with differentially private stochastic gradient descent (DP-SGD), LoRA
faces substantial noise amplification: DP-SGD perturbs per-sample gradients,
and the matrix multiplication of the LoRA update (BA) intensifies this
effect. Freezing one matrix (e.g., A) reduces the noise but restricts model
expressiveness, often resulting in suboptimal adaptation. To address this, we
propose FedSVD, a simple yet effective method that introduces a global
reparameterization based on singular value decomposition (SVD). In our
approach, each client optimizes only the B matrix and transmits it to the
server. The server aggregates the B matrices, computes the product BA using
the previous A, and refactorizes the result via SVD. This yields a new
adaptive A composed of the orthonormal right singular vectors of BA, and an
updated B containing the remaining SVD components. This reparameterization
avoids quadratic noise amplification, while allowing A to better capture the
principal directions of the aggregate updates. Moreover, the orthonormal
structure of A bounds the gradient norms of B and preserves more signal
under DP-SGD, as confirmed by our theoretical analysis. As a result, FedSVD
consistently improves stability and performance across a variety of privacy
settings and benchmarks, outperforming relevant baselines under both private
and non-private regimes.