차등 프라이버시 대규모 언어 모델을 활용한 합성 쿼리 생성 기반 프라이버시 보호 추천 시스템
Privacy-Preserving Recommender Systems with Synthetic Query Generation using Differentially Private Large Language Models
May 10, 2023
저자: Aldo Gael Carranza, Rezsa Farahani, Natalia Ponomareva, Alex Kurakin, Matthew Jagielski, Milad Nasr
cs.AI
초록
우리는 차등 프라이버시(DP) 대규모 언어 모델(LLM)을 활용하여 프라이버시를 보존하는 대규모 추천 시스템을 개발하기 위한 새로운 접근 방식을 제안합니다. 이 방법은 복잡한 시스템을 DP로 학습시키는 데 있어 특정한 도전 과제와 한계를 극복합니다. 우리의 방법은 특히 LLM 기반 추천 시스템이라는 새로운 영역에 적합하지만, 자연어 입력 표현을 처리하는 모든 추천 시스템에 쉽게 적용할 수 있습니다. 우리의 접근 방식은 공개적으로 사전 학습된 LLM을 쿼리 생성 작업에 대해 DP 학습 방법으로 미세 조정하는 것을 포함합니다. 이를 통해 생성된 모델은 원본 쿼리를 대표하는 프라이버시가 보장된 합성 쿼리를 생성할 수 있으며, 이는 추가적인 프라이버시 비용 없이 다운스트림 비공개 추천 학습 절차에 자유롭게 공유될 수 있습니다. 우리는 이 방법이 효과적인 딥 검색 모델을 안전하게 학습시키는 능력을 평가했으며, 검색 모델을 직접 DP 학습시키는 방법과 비교하여 쿼리 수준의 프라이버시 보장을 저해하지 않으면서 검색 품질에서 상당한 개선을 관찰했습니다.
English
We propose a novel approach for developing privacy-preserving large-scale
recommender systems using differentially private (DP) large language models
(LLMs) which overcomes certain challenges and limitations in DP training these
complex systems. Our method is particularly well suited for the emerging area
of LLM-based recommender systems, but can be readily employed for any
recommender systems that process representations of natural language inputs.
Our approach involves using DP training methods to fine-tune a publicly
pre-trained LLM on a query generation task. The resulting model can generate
private synthetic queries representative of the original queries which can be
freely shared for any downstream non-private recommendation training procedures
without incurring any additional privacy cost. We evaluate our method on its
ability to securely train effective deep retrieval models, and we observe
significant improvements in their retrieval quality without compromising
query-level privacy guarantees compared to methods where the retrieval models
are directly DP trained.