Privacy-beschermende aanbevelingssystemen met synthetische querygeneratie met behulp van differentieel private grote taalmodellen

Samenvatting

Wij stellen een nieuwe aanpak voor voor het ontwikkelen van privacy-bewuste grootschalige aanbevelingssystemen met behulp van differentieel private (DP) grote taalmmodellen (LLM's), die bepaalde uitdagingen en beperkingen bij het DP-trainen van deze complexe systemen overwint. Onze methode is bijzonder goed geschikt voor het opkomende gebied van LLM-gebaseerde aanbevelingssystemen, maar kan eenvoudig worden toegepast op elk aanbevelingssysteem dat representaties van natuurlijke taalinputs verwerkt. Onze aanpak omvat het gebruik van DP-trainingsmethoden om een openbaar voorgetraind LLM te fine-tunen voor een querygeneratietaak. Het resulterende model kan private synthetische queries genereren die representatief zijn voor de originele queries, die vrijelijk gedeeld kunnen worden voor alle downstream niet-private aanbevelingstrainingsprocedures zonder extra privacykosten te maken. Wij evalueren onze methode op het vermogen om effectieve diepe retrievalsystemen veilig te trainen, en we observeren aanzienlijke verbeteringen in hun retrievalkwaliteit zonder de privacygaranties op queryniveau in gevaar te brengen, vergeleken met methoden waarbij de retrievalsystemen direct DP-getraind worden.

English

We propose a novel approach for developing privacy-preserving large-scale recommender systems using differentially private (DP) large language models (LLMs) which overcomes certain challenges and limitations in DP training these complex systems. Our method is particularly well suited for the emerging area of LLM-based recommender systems, but can be readily employed for any recommender systems that process representations of natural language inputs. Our approach involves using DP training methods to fine-tune a publicly pre-trained LLM on a query generation task. The resulting model can generate private synthetic queries representative of the original queries which can be freely shared for any downstream non-private recommendation training procedures without incurring any additional privacy cost. We evaluate our method on its ability to securely train effective deep retrieval models, and we observe significant improvements in their retrieval quality without compromising query-level privacy guarantees compared to methods where the retrieval models are directly DP trained.

Privacy-beschermende aanbevelingssystemen met synthetische querygeneratie met behulp van differentieel private grote taalmodellen

Privacy-Preserving Recommender Systems with Synthetic Query Generation using Differentially Private Large Language Models

Samenvatting

Support