Réglage efficace des LLM avec préservation de la confidentialité différentielle via l'apprentissage par renforcement
Efficient Differentially Private Fine-Tuning of LLMs via Reinforcement Learning
July 30, 2025
papers.authors: Afshin Khadangi, Amir Sartipi, Igor Tchappi, Ramin Bahmani, Gilbert Fridgen
cs.AI
papers.abstract
La tension entre la confidentialité des données et l'utilité des modèles est devenue le goulot d'étranglement déterminant pour le déploiement pratique des grands modèles de langage (LLM) entraînés sur des corpus sensibles, notamment dans le domaine de la santé. La descente de gradient stochastique à confidentialité différentielle (DP-SGD) garantit une confidentialité formelle, mais cela se fait à un coût prononcé : les gradients sont forcément tronqués et perturbés par du bruit, ce qui dégrade l'efficacité des échantillons et la précision finale. De nombreuses variantes ont été proposées pour atténuer ce compromis, mais elles partagent toutes un handicap : leurs paramètres de contrôle sont prédéfinis, globaux et insensibles au paysage d'optimisation en évolution. Par conséquent, les praticiens sont contraints soit de dépenser excessivement le budget de confidentialité pour atteindre l'utilité, soit d'accepter des modèles médiocres pour rester dans les limites de confidentialité. Nous présentons RLDP, le premier cadre qui transforme l'optimisation DP elle-même en un problème de contrôle en boucle fermée adapté à l'apprentissage par renforcement profond (RL) moderne. RLDP perçoit en continu des statistiques riches de la dynamique d'apprentissage et agit en sélectionnant des seuils de troncature de gradient granulaires par paramètre ainsi que l'amplitude du bruit gaussien injecté. Une hyper-politique de critique-acteur doux (SAC) est entraînée en ligne pendant le réglage fin du modèle de langage ; elle apprend, à partir de zéro, comment allouer le budget de confidentialité là où et quand cela compte. À travers plus de 1 600 expériences d'ablation sur GPT2-small, Llama-1B, Llama-3B et Mistral-7B, RLDP offre des réductions de perplexité de 1,3 à 30,5 % (moyenne de 5,4 %) et un gain d'utilité en aval moyen de 5,6 %. RLDP atteint l'utilité finale de chaque référence après seulement 13 à 43 % du budget de mise à jour des gradients (accélération moyenne de 71 %), tout en respectant le même contrat (epsilon, delta)-DP et en présentant une susceptibilité égale ou inférieure aux attaques d'inférence d'appartenance et d'extraction de canaris.
English
The tension between data privacy and model utility has become the defining
bottleneck for the practical deployment of large language models (LLMs) trained
on sensitive corpora including healthcare. Differentially private stochastic
gradient descent (DP-SGD) guarantees formal privacy, yet it does so at a
pronounced cost: gradients are forcibly clipped and perturbed with noise,
degrading sample efficiency and final accuracy. Numerous variants have been
proposed to soften this trade-off, but they all share a handicap: their control
knobs are hard-coded, global, and oblivious to the evolving optimization
landscape. Consequently, practitioners are forced either to over-spend privacy
budget in pursuit of utility, or to accept mediocre models in order to stay
within privacy constraints. We present RLDP, the first framework to cast DP
optimization itself as a closed-loop control problem amenable to modern deep
reinforcement learning (RL). RLDP continuously senses rich statistics of the
learning dynamics and acts by selecting fine-grained per parameter
gradient-clipping thresholds as well as the magnitude of injected Gaussian
noise. A soft actor-critic (SAC) hyper-policy is trained online during language
model fine-tuning; it learns, from scratch, how to allocate the privacy budget
where it matters and when it matters. Across more than 1,600 ablation
experiments on GPT2-small, Llama-1B, Llama-3B, and Mistral-7B, RLDP delivers
perplexity reductions of 1.3-30.5% (mean 5.4%) and an average 5.6% downstream
utility gain. RLDP reaches each baseline's final utility after only 13-43% of
the gradient-update budget (mean speed-up 71%), all while honoring the same
(epsilon, delta)-DP contract and exhibiting equal or lower susceptibility
to membership-inference and canary-extraction attacks.