Effizientes differenziell privates Feinabstimmen von LLMs durch Reinforcement Learning
Efficient Differentially Private Fine-Tuning of LLMs via Reinforcement Learning
July 30, 2025
papers.authors: Afshin Khadangi, Amir Sartipi, Igor Tchappi, Ramin Bahmani, Gilbert Fridgen
cs.AI
papers.abstract
Die Spannung zwischen Datenschutz und Modellnutzen hat sich zum entscheidenden Engpass für den praktischen Einsatz großer Sprachmodelle (LLMs) entwickelt, die auf sensiblen Datenkorpora, einschließlich des Gesundheitswesens, trainiert wurden. Differenziell privater stochastischer Gradientenabstieg (DP-SGD) gewährleistet formale Privatsphäre, jedoch zu einem erheblichen Preis: Gradienten werden zwangsweise beschnitten und mit Rauschen versehen, was die Stichprobeneffizienz und die endgültige Genauigkeit beeinträchtigt. Zahlreiche Varianten wurden vorgeschlagen, um diesen Kompromiss abzumildern, aber sie alle teilen eine Schwäche: Ihre Steuerungsparameter sind fest kodiert, global und ignorieren die sich entwickelnde Optimierungslandschaft. Folglich sind Praktiker gezwungen, entweder das Privatsphäre-Budget übermäßig auszugeben, um Nutzen zu erzielen, oder mittelmäßige Modelle zu akzeptieren, um innerhalb der Privatsphäre-Grenzen zu bleiben. Wir präsentieren RLDP, das erste Framework, das die DP-Optimierung selbst als ein geschlossenes Regelkreisproblem darstellt, das sich für modernes Deep Reinforcement Learning (RL) eignet. RLDP erfasst kontinuierlich umfangreiche Statistiken der Lern-Dynamik und handelt, indem es fein abgestimmte Gradienten-Beschneidungsschwellen pro Parameter sowie die Stärke des injizierten Gaußschen Rauschens auswählt. Eine Soft Actor-Critic (SAC)-Hyper-Policy wird während der Feinabstimmung des Sprachmodells online trainiert; sie lernt von Grund auf, wie das Privatsphäre-Budget dort und dann zugeteilt wird, wo und wann es wichtig ist. In über 1.600 Ablationsexperimenten mit GPT2-small, Llama-1B, Llama-3B und Mistral-7B erzielt RLDP Reduktionen der Perplexität von 1,3-30,5 % (Durchschnitt 5,4 %) und einen durchschnittlichen Nutzengewinn von 5,6 % in nachgelagerten Aufgaben. RLDP erreicht den endgültigen Nutzen jedes Baselines nach nur 13-43 % des Gradienten-Update-Budgets (durchschnittliche Beschleunigung 71 %), während es denselben (epsilon, delta)-DP-Vertrag einhält und eine gleichwertige oder geringere Anfälligkeit für Mitgliedschafts-Inferenz- und Kanarienvogel-Extraktionsangriffe zeigt.
English
The tension between data privacy and model utility has become the defining
bottleneck for the practical deployment of large language models (LLMs) trained
on sensitive corpora including healthcare. Differentially private stochastic
gradient descent (DP-SGD) guarantees formal privacy, yet it does so at a
pronounced cost: gradients are forcibly clipped and perturbed with noise,
degrading sample efficiency and final accuracy. Numerous variants have been
proposed to soften this trade-off, but they all share a handicap: their control
knobs are hard-coded, global, and oblivious to the evolving optimization
landscape. Consequently, practitioners are forced either to over-spend privacy
budget in pursuit of utility, or to accept mediocre models in order to stay
within privacy constraints. We present RLDP, the first framework to cast DP
optimization itself as a closed-loop control problem amenable to modern deep
reinforcement learning (RL). RLDP continuously senses rich statistics of the
learning dynamics and acts by selecting fine-grained per parameter
gradient-clipping thresholds as well as the magnitude of injected Gaussian
noise. A soft actor-critic (SAC) hyper-policy is trained online during language
model fine-tuning; it learns, from scratch, how to allocate the privacy budget
where it matters and when it matters. Across more than 1,600 ablation
experiments on GPT2-small, Llama-1B, Llama-3B, and Mistral-7B, RLDP delivers
perplexity reductions of 1.3-30.5% (mean 5.4%) and an average 5.6% downstream
utility gain. RLDP reaches each baseline's final utility after only 13-43% of
the gradient-update budget (mean speed-up 71%), all while honoring the same
(epsilon, delta)-DP contract and exhibiting equal or lower susceptibility
to membership-inference and canary-extraction attacks.