Fine-Tuning Efficiente con Differenziazione Privata di LLM tramite Apprendimento per Rinforzo
Efficient Differentially Private Fine-Tuning of LLMs via Reinforcement Learning
July 30, 2025
Autori: Afshin Khadangi, Amir Sartipi, Igor Tchappi, Ramin Bahmani, Gilbert Fridgen
cs.AI
Abstract
La tensione tra privacy dei dati e utilità del modello è diventata il collo di bottiglia determinante per l'implementazione pratica di grandi modelli linguistici (LLM) addestrati su corpora sensibili, inclusi quelli sanitari. La discesa del gradiente stocastica con privacy differenziale (DP-SGD) garantisce una privacy formale, ma lo fa a un costo significativo: i gradienti vengono forzatamente troncati e perturbati con rumore, degradando l'efficienza campionaria e l'accuratezza finale. Sono state proposte numerose varianti per mitigare questo compromesso, ma tutte condividono un limite: i loro parametri di controllo sono predefiniti, globali e indifferenti al panorama di ottimizzazione in evoluzione. Di conseguenza, i professionisti sono costretti a spendere eccessivamente il budget di privacy in cerca di utilità, oppure ad accettare modelli mediocri per rimanere entro i vincoli di privacy. Presentiamo RLDP, il primo framework che trasforma l'ottimizzazione DP stessa in un problema di controllo a ciclo chiuso adatto al moderno apprendimento per rinforzo profondo (RL). RLDP percepisce continuamente statistiche dettagliate delle dinamiche di apprendimento e agisce selezionando soglie di troncamento del gradiente granulari per parametro, nonché l'entità del rumore gaussiano iniettato. Una politica iper-parametrizzata soft actor-critic (SAC) viene addestrata online durante il fine-tuning del modello linguistico; essa impara, da zero, come allocare il budget di privacy dove e quando è necessario. Attraverso più di 1.600 esperimenti di ablazione su GPT2-small, Llama-1B, Llama-3B e Mistral-7B, RLDP ottiene riduzioni della perplessità comprese tra 1,3% e 30,5% (media 5,4%) e un guadagno medio di utilità a valle del 5,6%. RLDP raggiunge l'utilità finale di ciascun baseline dopo solo il 13-43% del budget di aggiornamento del gradiente (accelerazione media del 71%), rispettando lo stesso contratto (epsilon, delta)-DP e mostrando una suscettibilità uguale o inferiore agli attacchi di inferenza di appartenenza e di estrazione di canarini.
English
The tension between data privacy and model utility has become the defining
bottleneck for the practical deployment of large language models (LLMs) trained
on sensitive corpora including healthcare. Differentially private stochastic
gradient descent (DP-SGD) guarantees formal privacy, yet it does so at a
pronounced cost: gradients are forcibly clipped and perturbed with noise,
degrading sample efficiency and final accuracy. Numerous variants have been
proposed to soften this trade-off, but they all share a handicap: their control
knobs are hard-coded, global, and oblivious to the evolving optimization
landscape. Consequently, practitioners are forced either to over-spend privacy
budget in pursuit of utility, or to accept mediocre models in order to stay
within privacy constraints. We present RLDP, the first framework to cast DP
optimization itself as a closed-loop control problem amenable to modern deep
reinforcement learning (RL). RLDP continuously senses rich statistics of the
learning dynamics and acts by selecting fine-grained per parameter
gradient-clipping thresholds as well as the magnitude of injected Gaussian
noise. A soft actor-critic (SAC) hyper-policy is trained online during language
model fine-tuning; it learns, from scratch, how to allocate the privacy budget
where it matters and when it matters. Across more than 1,600 ablation
experiments on GPT2-small, Llama-1B, Llama-3B, and Mistral-7B, RLDP delivers
perplexity reductions of 1.3-30.5% (mean 5.4%) and an average 5.6% downstream
utility gain. RLDP reaches each baseline's final utility after only 13-43% of
the gradient-update budget (mean speed-up 71%), all while honoring the same
(epsilon, delta)-DP contract and exhibiting equal or lower susceptibility
to membership-inference and canary-extraction attacks.