Эффективное тонкое дифференциально-приватное обучение крупных языковых моделей с использованием обучения с подкреплением
Efficient Differentially Private Fine-Tuning of LLMs via Reinforcement Learning
July 30, 2025
Авторы: Afshin Khadangi, Amir Sartipi, Igor Tchappi, Ramin Bahmani, Gilbert Fridgen
cs.AI
Аннотация
Противоречие между конфиденциальностью данных и полезностью модели стало ключевым ограничением для практического внедрения крупных языковых моделей (LLM), обученных на чувствительных корпусах, включая медицинские данные. Дифференциально приватный стохастический градиентный спуск (DP-SGD) обеспечивает формальную приватность, но делает это за счет значительных издержек: градиенты принудительно обрезаются и искажаются шумом, что снижает эффективность использования данных и итоговую точность. Было предложено множество вариантов для смягчения этого компромисса, но все они имеют общий недостаток: их параметры управления жестко заданы, глобальны и не учитывают изменяющийся ландшафт оптимизации. В результате специалисты вынуждены либо чрезмерно расходовать бюджет приватности ради полезности, либо соглашаться на посредственные модели, чтобы оставаться в рамках ограничений приватности. Мы представляем RLDP — первую платформу, которая рассматривает оптимизацию с учетом дифференциальной приватности как задачу замкнутого управления, подходящую для современных методов глубокого обучения с подкреплением (RL). RLDP непрерывно анализирует богатую статистику динамики обучения и действует, выбирая детализированные пороги обрезки градиентов для каждого параметра, а также величину вводимого гауссовского шума. Гиперполитика на основе мягкого актора-критика (SAC) обучается в режиме реального времени в процессе тонкой настройки языковой модели; она с нуля учится тому, как и когда распределять бюджет приватности там, где это важно. В более чем 1600 экспериментах с моделями GPT2-small, Llama-1B, Llama-3B и Mistral-7B RLDP демонстрирует снижение перплексии на 1,3–30,5% (в среднем 5,4%) и увеличение полезности на 5,6% в среднем. RLDP достигает итоговой полезности базовых моделей, используя лишь 13–43% бюджета обновлений градиентов (в среднем ускорение на 71%), при этом соблюдая те же условия (ε, δ)-дифференциальной приватности и демонстрируя равную или меньшую уязвимость к атакам на членство и извлечение канареек.
English
The tension between data privacy and model utility has become the defining
bottleneck for the practical deployment of large language models (LLMs) trained
on sensitive corpora including healthcare. Differentially private stochastic
gradient descent (DP-SGD) guarantees formal privacy, yet it does so at a
pronounced cost: gradients are forcibly clipped and perturbed with noise,
degrading sample efficiency and final accuracy. Numerous variants have been
proposed to soften this trade-off, but they all share a handicap: their control
knobs are hard-coded, global, and oblivious to the evolving optimization
landscape. Consequently, practitioners are forced either to over-spend privacy
budget in pursuit of utility, or to accept mediocre models in order to stay
within privacy constraints. We present RLDP, the first framework to cast DP
optimization itself as a closed-loop control problem amenable to modern deep
reinforcement learning (RL). RLDP continuously senses rich statistics of the
learning dynamics and acts by selecting fine-grained per parameter
gradient-clipping thresholds as well as the magnitude of injected Gaussian
noise. A soft actor-critic (SAC) hyper-policy is trained online during language
model fine-tuning; it learns, from scratch, how to allocate the privacy budget
where it matters and when it matters. Across more than 1,600 ablation
experiments on GPT2-small, Llama-1B, Llama-3B, and Mistral-7B, RLDP delivers
perplexity reductions of 1.3-30.5% (mean 5.4%) and an average 5.6% downstream
utility gain. RLDP reaches each baseline's final utility after only 13-43% of
the gradient-update budget (mean speed-up 71%), all while honoring the same
(epsilon, delta)-DP contract and exhibiting equal or lower susceptibility
to membership-inference and canary-extraction attacks.