Ajuste Fino Eficiente de LLMs com Privacidade Diferencial via Aprendizado por Reforço
Efficient Differentially Private Fine-Tuning of LLMs via Reinforcement Learning
July 30, 2025
Autores: Afshin Khadangi, Amir Sartipi, Igor Tchappi, Ramin Bahmani, Gilbert Fridgen
cs.AI
Resumo
A tensão entre privacidade dos dados e utilidade do modelo tornou-se o principal gargalo para a implantação prática de grandes modelos de linguagem (LLMs) treinados em corpora sensíveis, incluindo dados de saúde. O gradiente descendente estocástico com privacidade diferencial (DP-SGD) garante privacidade formal, mas o faz a um custo significativo: os gradientes são forçosamente cortados e perturbados com ruído, degradando a eficiência amostral e a precisão final. Numerosas variantes foram propostas para suavizar essa compensação, mas todas compartilham uma limitação: seus controles são codificados de forma rígida, globais e alheios à paisagem de otimização em evolução. Consequentemente, os profissionais são forçados a gastar excessivamente o orçamento de privacidade em busca de utilidade ou a aceitar modelos medíocres para permanecer dentro das restrições de privacidade. Apresentamos o RLDP, o primeiro framework a tratar a otimização DP como um problema de controle em malha fechada passível de ser abordado por técnicas modernas de aprendizado por reforço profundo (RL). O RLDP monitora continuamente estatísticas ricas da dinâmica de aprendizado e age selecionando limites de corte de gradiente granulares por parâmetro, bem como a magnitude do ruído gaussiano injetado. Uma hiper-política de ator-crítico suave (SAC) é treinada online durante o ajuste fino do modelo de linguagem; ela aprende, do zero, como alocar o orçamento de privacidade onde e quando ele é mais necessário. Em mais de 1.600 experimentos de ablação realizados com GPT2-small, Llama-1B, Llama-3B e Mistral-7B, o RLDP proporciona reduções de perplexidade de 1,3-30,5% (média de 5,4%) e um ganho médio de utilidade em tarefas subsequentes de 5,6%. O RLDP atinge a utilidade final de cada linha de base após apenas 13-43% do orçamento de atualização de gradiente (aceleração média de 71%), tudo isso respeitando o mesmo contrato de privacidade diferencial (epsilon, delta)-DP e exibindo suscetibilidade igual ou menor a ataques de inferência de associação e extração de canários.
English
The tension between data privacy and model utility has become the defining
bottleneck for the practical deployment of large language models (LLMs) trained
on sensitive corpora including healthcare. Differentially private stochastic
gradient descent (DP-SGD) guarantees formal privacy, yet it does so at a
pronounced cost: gradients are forcibly clipped and perturbed with noise,
degrading sample efficiency and final accuracy. Numerous variants have been
proposed to soften this trade-off, but they all share a handicap: their control
knobs are hard-coded, global, and oblivious to the evolving optimization
landscape. Consequently, practitioners are forced either to over-spend privacy
budget in pursuit of utility, or to accept mediocre models in order to stay
within privacy constraints. We present RLDP, the first framework to cast DP
optimization itself as a closed-loop control problem amenable to modern deep
reinforcement learning (RL). RLDP continuously senses rich statistics of the
learning dynamics and acts by selecting fine-grained per parameter
gradient-clipping thresholds as well as the magnitude of injected Gaussian
noise. A soft actor-critic (SAC) hyper-policy is trained online during language
model fine-tuning; it learns, from scratch, how to allocate the privacy budget
where it matters and when it matters. Across more than 1,600 ablation
experiments on GPT2-small, Llama-1B, Llama-3B, and Mistral-7B, RLDP delivers
perplexity reductions of 1.3-30.5% (mean 5.4%) and an average 5.6% downstream
utility gain. RLDP reaches each baseline's final utility after only 13-43% of
the gradient-update budget (mean speed-up 71%), all while honoring the same
(epsilon, delta)-DP contract and exhibiting equal or lower susceptibility
to membership-inference and canary-extraction attacks.