효율적인 차등 프라이버시를 보장하는 LLM 미세 조정: 강화 학습을 통한 접근
Efficient Differentially Private Fine-Tuning of LLMs via Reinforcement Learning
July 30, 2025
저자: Afshin Khadangi, Amir Sartipi, Igor Tchappi, Ramin Bahmani, Gilbert Fridgen
cs.AI
초록
데이터 프라이버시와 모델 유틸리티 간의 긴장은 의료를 포함한 민감한 코퍼스로 학습된 대형 언어 모델(LLM)의 실제 배포에서 결정적인 병목 현상으로 자리 잡았습니다. 차등 프라이버시 확률적 경사 하강법(DP-SGD)은 형식적인 프라이버시를 보장하지만, 이는 뚜렷한 비용을 수반합니다: 그래디언트가 강제로 잘리고 노이즈가 추가되며, 이는 샘플 효율성과 최종 정확도를 저하시킵니다. 이러한 절충을 완화하기 위해 다양한 변형들이 제안되었지만, 이들은 모두 한 가지 단점을 공유합니다: 그들의 제어 매개변수는 하드코딩되어 있고 전역적이며, 변화하는 최적화 환경을 인식하지 못합니다. 결과적으로, 실무자들은 유틸리티를 추구하기 위해 프라이버시 예산을 과도하게 소비하거나, 프라이버시 제약 내에서 머물기 위해 평범한 모델을 받아들여야 하는 딜레마에 직면합니다. 우리는 DP 최적화 자체를 현대적인 심층 강화 학습(RL)에 적합한 폐루프 제어 문제로 전환하는 최초의 프레임워크인 RLDP를 제시합니다. RLDP는 학습 역학의 다양한 통계를 지속적으로 감지하며, 세분화된 매개변수별 그래디언트 클리핑 임계값과 주입된 가우시안 노이즈의 크기를 선택하여 작동합니다. 소프트 액터-크리틱(SAC) 하이퍼 정책은 언어 모델 미세 조정 중에 온라인으로 학습되며, 프라이버시 예산을 어디에, 언제 할당할지 처음부터 학습합니다. GPT2-small, Llama-1B, Llama-3B, Mistral-7B에서 수행된 1,600회 이상의 실험을 통해 RLDP는 1.3-30.5%(평균 5.4%)의 perplexity 감소와 평균 5.6%의 다운스트림 유틸리티 향상을 달성했습니다. RLDP는 각 기준선의 최종 유틸리티에 도달하기 위해 그래디언트 업데이트 예산의 13-43%(평균 71% 속도 향상)만을 사용하며, 동일한 (epsilon, delta)-DP 계약을 준수하고 멤버십 추론 및 카나리 추출 공격에 대해 동등하거나 더 낮은 취약성을 보였습니다.
English
The tension between data privacy and model utility has become the defining
bottleneck for the practical deployment of large language models (LLMs) trained
on sensitive corpora including healthcare. Differentially private stochastic
gradient descent (DP-SGD) guarantees formal privacy, yet it does so at a
pronounced cost: gradients are forcibly clipped and perturbed with noise,
degrading sample efficiency and final accuracy. Numerous variants have been
proposed to soften this trade-off, but they all share a handicap: their control
knobs are hard-coded, global, and oblivious to the evolving optimization
landscape. Consequently, practitioners are forced either to over-spend privacy
budget in pursuit of utility, or to accept mediocre models in order to stay
within privacy constraints. We present RLDP, the first framework to cast DP
optimization itself as a closed-loop control problem amenable to modern deep
reinforcement learning (RL). RLDP continuously senses rich statistics of the
learning dynamics and acts by selecting fine-grained per parameter
gradient-clipping thresholds as well as the magnitude of injected Gaussian
noise. A soft actor-critic (SAC) hyper-policy is trained online during language
model fine-tuning; it learns, from scratch, how to allocate the privacy budget
where it matters and when it matters. Across more than 1,600 ablation
experiments on GPT2-small, Llama-1B, Llama-3B, and Mistral-7B, RLDP delivers
perplexity reductions of 1.3-30.5% (mean 5.4%) and an average 5.6% downstream
utility gain. RLDP reaches each baseline's final utility after only 13-43% of
the gradient-update budget (mean speed-up 71%), all while honoring the same
(epsilon, delta)-DP contract and exhibiting equal or lower susceptibility
to membership-inference and canary-extraction attacks.