ChatPaper.aiChatPaper

효율적인 차등 프라이버시를 보장하는 LLM 미세 조정: 강화 학습을 통한 접근

Efficient Differentially Private Fine-Tuning of LLMs via Reinforcement Learning

July 30, 2025
저자: Afshin Khadangi, Amir Sartipi, Igor Tchappi, Ramin Bahmani, Gilbert Fridgen
cs.AI

초록

데이터 프라이버시와 모델 유틸리티 간의 긴장은 의료를 포함한 민감한 코퍼스로 학습된 대형 언어 모델(LLM)의 실제 배포에서 결정적인 병목 현상으로 자리 잡았습니다. 차등 프라이버시 확률적 경사 하강법(DP-SGD)은 형식적인 프라이버시를 보장하지만, 이는 뚜렷한 비용을 수반합니다: 그래디언트가 강제로 잘리고 노이즈가 추가되며, 이는 샘플 효율성과 최종 정확도를 저하시킵니다. 이러한 절충을 완화하기 위해 다양한 변형들이 제안되었지만, 이들은 모두 한 가지 단점을 공유합니다: 그들의 제어 매개변수는 하드코딩되어 있고 전역적이며, 변화하는 최적화 환경을 인식하지 못합니다. 결과적으로, 실무자들은 유틸리티를 추구하기 위해 프라이버시 예산을 과도하게 소비하거나, 프라이버시 제약 내에서 머물기 위해 평범한 모델을 받아들여야 하는 딜레마에 직면합니다. 우리는 DP 최적화 자체를 현대적인 심층 강화 학습(RL)에 적합한 폐루프 제어 문제로 전환하는 최초의 프레임워크인 RLDP를 제시합니다. RLDP는 학습 역학의 다양한 통계를 지속적으로 감지하며, 세분화된 매개변수별 그래디언트 클리핑 임계값과 주입된 가우시안 노이즈의 크기를 선택하여 작동합니다. 소프트 액터-크리틱(SAC) 하이퍼 정책은 언어 모델 미세 조정 중에 온라인으로 학습되며, 프라이버시 예산을 어디에, 언제 할당할지 처음부터 학습합니다. GPT2-small, Llama-1B, Llama-3B, Mistral-7B에서 수행된 1,600회 이상의 실험을 통해 RLDP는 1.3-30.5%(평균 5.4%)의 perplexity 감소와 평균 5.6%의 다운스트림 유틸리티 향상을 달성했습니다. RLDP는 각 기준선의 최종 유틸리티에 도달하기 위해 그래디언트 업데이트 예산의 13-43%(평균 71% 속도 향상)만을 사용하며, 동일한 (epsilon, delta)-DP 계약을 준수하고 멤버십 추론 및 카나리 추출 공격에 대해 동등하거나 더 낮은 취약성을 보였습니다.
English
The tension between data privacy and model utility has become the defining bottleneck for the practical deployment of large language models (LLMs) trained on sensitive corpora including healthcare. Differentially private stochastic gradient descent (DP-SGD) guarantees formal privacy, yet it does so at a pronounced cost: gradients are forcibly clipped and perturbed with noise, degrading sample efficiency and final accuracy. Numerous variants have been proposed to soften this trade-off, but they all share a handicap: their control knobs are hard-coded, global, and oblivious to the evolving optimization landscape. Consequently, practitioners are forced either to over-spend privacy budget in pursuit of utility, or to accept mediocre models in order to stay within privacy constraints. We present RLDP, the first framework to cast DP optimization itself as a closed-loop control problem amenable to modern deep reinforcement learning (RL). RLDP continuously senses rich statistics of the learning dynamics and acts by selecting fine-grained per parameter gradient-clipping thresholds as well as the magnitude of injected Gaussian noise. A soft actor-critic (SAC) hyper-policy is trained online during language model fine-tuning; it learns, from scratch, how to allocate the privacy budget where it matters and when it matters. Across more than 1,600 ablation experiments on GPT2-small, Llama-1B, Llama-3B, and Mistral-7B, RLDP delivers perplexity reductions of 1.3-30.5% (mean 5.4%) and an average 5.6% downstream utility gain. RLDP reaches each baseline's final utility after only 13-43% of the gradient-update budget (mean speed-up 71%), all while honoring the same (epsilon, delta)-DP contract and exhibiting equal or lower susceptibility to membership-inference and canary-extraction attacks.
PDF72July 31, 2025