Efficiënte Differentieel Privé Fine-Tuning van LLM's via Reinforcement Learning
Efficient Differentially Private Fine-Tuning of LLMs via Reinforcement Learning
July 30, 2025
Auteurs: Afshin Khadangi, Amir Sartipi, Igor Tchappi, Ramin Bahmani, Gilbert Fridgen
cs.AI
Samenvatting
De spanning tussen gegevensprivacy en modelnuttigheid is het bepalende knelpunt geworden voor de praktische implementatie van grote taalmmodellen (LLM's) die zijn getraind op gevoelige corpora, waaronder gezondheidszorg. Differentieel private stochastische gradiëntdaling (DP-SGD) garandeert formele privacy, maar doet dit tegen een aanzienlijke prijs: gradiënten worden gedwongen afgekapt en verstoord met ruis, wat de steekproefficiëntie en uiteindelijke nauwkeurigheid aantast. Talrijke varianten zijn voorgesteld om deze afweging te verzachten, maar ze delen allemaal een beperking: hun instelmechanismen zijn vastgelegd, globaal en onbewust van het evoluerende optimalisatielandschap. Als gevolg daarvan worden beoefenaars gedwongen om ofwel te veel privacybudget uit te geven in de zoektocht naar nuttigheid, ofwel middelmatige modellen te accepteren om binnen de privacybeperkingen te blijven. Wij presenteren RLDP, het eerste raamwerk dat DP-optimalisatie zelf als een gesloten regelprobleem beschouwt dat geschikt is voor moderne diepe reinforcement learning (RL). RLDP neemt continu rijke statistieken van de leer dynamiek waar en handelt door fijnmazige gradiënt-afkappingsdrempels per parameter te selecteren, evenals de grootte van geïnjecteerde Gaussische ruis. Een soft actor-critic (SAC) hyper-beleid wordt online getraind tijdens het finetunen van het taalmodel; het leert van scratch hoe het privacybudget toe te wijzen waar en wanneer het ertoe doet. Over meer dan 1.600 ablatie-experimenten op GPT2-small, Llama-1B, Llama-3B en Mistral-7B, levert RLDP perplexiteitsreducties van 1,3-30,5% (gemiddeld 5,4%) en een gemiddelde nuttigheidswinst van 5,6% downstream. RLDP bereikt de uiteindelijke nuttigheid van elke baseline na slechts 13-43% van het gradiënt-updatebudget (gemiddelde versnelling 71%), allemaal terwijl het hetzelfde (epsilon, delta)-DP-contract respecteert en een gelijke of lagere gevoeligheid vertoont voor lidmaatschapsinferentie- en kanarie-extractieaanvallen.
English
The tension between data privacy and model utility has become the defining
bottleneck for the practical deployment of large language models (LLMs) trained
on sensitive corpora including healthcare. Differentially private stochastic
gradient descent (DP-SGD) guarantees formal privacy, yet it does so at a
pronounced cost: gradients are forcibly clipped and perturbed with noise,
degrading sample efficiency and final accuracy. Numerous variants have been
proposed to soften this trade-off, but they all share a handicap: their control
knobs are hard-coded, global, and oblivious to the evolving optimization
landscape. Consequently, practitioners are forced either to over-spend privacy
budget in pursuit of utility, or to accept mediocre models in order to stay
within privacy constraints. We present RLDP, the first framework to cast DP
optimization itself as a closed-loop control problem amenable to modern deep
reinforcement learning (RL). RLDP continuously senses rich statistics of the
learning dynamics and acts by selecting fine-grained per parameter
gradient-clipping thresholds as well as the magnitude of injected Gaussian
noise. A soft actor-critic (SAC) hyper-policy is trained online during language
model fine-tuning; it learns, from scratch, how to allocate the privacy budget
where it matters and when it matters. Across more than 1,600 ablation
experiments on GPT2-small, Llama-1B, Llama-3B, and Mistral-7B, RLDP delivers
perplexity reductions of 1.3-30.5% (mean 5.4%) and an average 5.6% downstream
utility gain. RLDP reaches each baseline's final utility after only 13-43% of
the gradient-update budget (mean speed-up 71%), all while honoring the same
(epsilon, delta)-DP contract and exhibiting equal or lower susceptibility
to membership-inference and canary-extraction attacks.