Efficiënte Differentieel Privé Fine-Tuning van LLM's via Reinforcement Learning

Samenvatting

De spanning tussen gegevensprivacy en modelnuttigheid is het bepalende knelpunt geworden voor de praktische implementatie van grote taalmmodellen (LLM's) die zijn getraind op gevoelige corpora, waaronder gezondheidszorg. Differentieel private stochastische gradiëntdaling (DP-SGD) garandeert formele privacy, maar doet dit tegen een aanzienlijke prijs: gradiënten worden gedwongen afgekapt en verstoord met ruis, wat de steekproefficiëntie en uiteindelijke nauwkeurigheid aantast. Talrijke varianten zijn voorgesteld om deze afweging te verzachten, maar ze delen allemaal een beperking: hun instelmechanismen zijn vastgelegd, globaal en onbewust van het evoluerende optimalisatielandschap. Als gevolg daarvan worden beoefenaars gedwongen om ofwel te veel privacybudget uit te geven in de zoektocht naar nuttigheid, ofwel middelmatige modellen te accepteren om binnen de privacybeperkingen te blijven. Wij presenteren RLDP, het eerste raamwerk dat DP-optimalisatie zelf als een gesloten regelprobleem beschouwt dat geschikt is voor moderne diepe reinforcement learning (RL). RLDP neemt continu rijke statistieken van de leer dynamiek waar en handelt door fijnmazige gradiënt-afkappingsdrempels per parameter te selecteren, evenals de grootte van geïnjecteerde Gaussische ruis. Een soft actor-critic (SAC) hyper-beleid wordt online getraind tijdens het finetunen van het taalmodel; het leert van scratch hoe het privacybudget toe te wijzen waar en wanneer het ertoe doet. Over meer dan 1.600 ablatie-experimenten op GPT2-small, Llama-1B, Llama-3B en Mistral-7B, levert RLDP perplexiteitsreducties van 1,3-30,5% (gemiddeld 5,4%) en een gemiddelde nuttigheidswinst van 5,6% downstream. RLDP bereikt de uiteindelijke nuttigheid van elke baseline na slechts 13-43% van het gradiënt-updatebudget (gemiddelde versnelling 71%), allemaal terwijl het hetzelfde (epsilon, delta)-DP-contract respecteert en een gelijke of lagere gevoeligheid vertoont voor lidmaatschapsinferentie- en kanarie-extractieaanvallen.

English

The tension between data privacy and model utility has become the defining bottleneck for the practical deployment of large language models (LLMs) trained on sensitive corpora including healthcare. Differentially private stochastic gradient descent (DP-SGD) guarantees formal privacy, yet it does so at a pronounced cost: gradients are forcibly clipped and perturbed with noise, degrading sample efficiency and final accuracy. Numerous variants have been proposed to soften this trade-off, but they all share a handicap: their control knobs are hard-coded, global, and oblivious to the evolving optimization landscape. Consequently, practitioners are forced either to over-spend privacy budget in pursuit of utility, or to accept mediocre models in order to stay within privacy constraints. We present RLDP, the first framework to cast DP optimization itself as a closed-loop control problem amenable to modern deep reinforcement learning (RL). RLDP continuously senses rich statistics of the learning dynamics and acts by selecting fine-grained per parameter gradient-clipping thresholds as well as the magnitude of injected Gaussian noise. A soft actor-critic (SAC) hyper-policy is trained online during language model fine-tuning; it learns, from scratch, how to allocate the privacy budget where it matters and when it matters. Across more than 1,600 ablation experiments on GPT2-small, Llama-1B, Llama-3B, and Mistral-7B, RLDP delivers perplexity reductions of 1.3-30.5% (mean 5.4%) and an average 5.6% downstream utility gain. RLDP reaches each baseline's final utility after only 13-43% of the gradient-update budget (mean speed-up 71%), all while honoring the same (epsilon, delta)-DP contract and exhibiting equal or lower susceptibility to membership-inference and canary-extraction attacks.

Efficiënte Differentieel Privé Fine-Tuning van LLM's via Reinforcement Learning

Efficient Differentially Private Fine-Tuning of LLMs via Reinforcement Learning

Samenvatting

Support