Afinamiento Eficiente con Privacidad Diferencial de Modelos de Lenguaje Grandes mediante Aprendizaje por Refuerzo
Efficient Differentially Private Fine-Tuning of LLMs via Reinforcement Learning
July 30, 2025
Autores: Afshin Khadangi, Amir Sartipi, Igor Tchappi, Ramin Bahmani, Gilbert Fridgen
cs.AI
Resumen
La tensión entre la privacidad de los datos y la utilidad del modelo se ha convertido en el cuello de botella definitorio para la implementación práctica de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) entrenados en corpus sensibles, incluidos los de atención médica. El descenso de gradiente estocástico con privacidad diferencial (DP-SGD, por sus siglas en inglés) garantiza privacidad formal, pero lo hace a un costo pronunciado: los gradientes se recortan forzosamente y se perturban con ruido, lo que degrada la eficiencia de las muestras y la precisión final. Se han propuesto numerosas variantes para suavizar esta compensación, pero todas comparten una limitación: sus controles están codificados de manera rígida, son globales y no tienen en cuenta el panorama de optimización en evolución. En consecuencia, los profesionales se ven obligados a gastar en exceso el presupuesto de privacidad en busca de utilidad o a aceptar modelos mediocres para mantenerse dentro de las restricciones de privacidad. Presentamos RLDP, el primer marco que convierte la optimización de privacidad diferencial (DP) en un problema de control de bucle cerrado susceptible al aprendizaje por refuerzo profundo (RL, por sus siglas en inglés) moderno. RLDP detecta continuamente estadísticas detalladas de la dinámica de aprendizaje y actúa seleccionando umbrales de recorte de gradiente específicos por parámetro, así como la magnitud del ruido gaussiano inyectado. Un hiper-política de actor-crítico suave (SAC, por sus siglas en inglés) se entrena en línea durante el ajuste fino del modelo de lenguaje; aprende, desde cero, cómo asignar el presupuesto de privacidad donde y cuando es importante. A través de más de 1,600 experimentos de ablación en GPT2-small, Llama-1B, Llama-3B y Mistral-7B, RLDP logra reducciones de perplejidad del 1.3-30.5% (media del 5.4%) y una ganancia promedio de utilidad descendente del 5.6%. RLDP alcanza la utilidad final de cada línea base después de solo el 13-43% del presupuesto de actualización de gradiente (aceleración media del 71%), todo ello respetando el mismo contrato de privacidad diferencial (epsilon, delta)-DP y mostrando una susceptibilidad igual o menor a los ataques de inferencia de membresía y extracción de canarios.
English
The tension between data privacy and model utility has become the defining
bottleneck for the practical deployment of large language models (LLMs) trained
on sensitive corpora including healthcare. Differentially private stochastic
gradient descent (DP-SGD) guarantees formal privacy, yet it does so at a
pronounced cost: gradients are forcibly clipped and perturbed with noise,
degrading sample efficiency and final accuracy. Numerous variants have been
proposed to soften this trade-off, but they all share a handicap: their control
knobs are hard-coded, global, and oblivious to the evolving optimization
landscape. Consequently, practitioners are forced either to over-spend privacy
budget in pursuit of utility, or to accept mediocre models in order to stay
within privacy constraints. We present RLDP, the first framework to cast DP
optimization itself as a closed-loop control problem amenable to modern deep
reinforcement learning (RL). RLDP continuously senses rich statistics of the
learning dynamics and acts by selecting fine-grained per parameter
gradient-clipping thresholds as well as the magnitude of injected Gaussian
noise. A soft actor-critic (SAC) hyper-policy is trained online during language
model fine-tuning; it learns, from scratch, how to allocate the privacy budget
where it matters and when it matters. Across more than 1,600 ablation
experiments on GPT2-small, Llama-1B, Llama-3B, and Mistral-7B, RLDP delivers
perplexity reductions of 1.3-30.5% (mean 5.4%) and an average 5.6% downstream
utility gain. RLDP reaches each baseline's final utility after only 13-43% of
the gradient-update budget (mean speed-up 71%), all while honoring the same
(epsilon, delta)-DP contract and exhibiting equal or lower susceptibility
to membership-inference and canary-extraction attacks.