Herstellen van privacybeschermende maskering met grote taalmodellen
Recovering from Privacy-Preserving Masking with Large Language Models
September 12, 2023
Auteurs: Arpita Vats, Zhe Liu, Peng Su, Debjyoti Paul, Yingyi Ma, Yutong Pang, Zeeshan Ahmed, Ozlem Kalinli
cs.AI
Samenvatting
Modelaanpassing is cruciaal om het verschil tussen proxytrainingsgegevens en de daadwerkelijke gebruikersgegevens te hanteren. Om effectief aanpassing uit te voeren, worden tekstuele gegevens van gebruikers doorgaans opgeslagen op servers of hun lokale apparaten, waar downstream natural language processing (NLP)-modellen rechtstreeks kunnen worden getraind met dergelijke domeinspecifieke gegevens. Dit kan echter zorgen over privacy en veiligheid oproepen vanwege de extra risico's van het blootstellen van gebruikersinformatie aan tegenstanders. Het vervangen van identificerende informatie in tekstuele gegevens door een generieke marker is recentelijk onderzocht. In dit werk benutten we grote taalmmodellen (LLM's) om vervangingen van gemaskeerde tokens voor te stellen en hun effectiviteit te evalueren op downstream taalmodelleertaken. Specifiek stellen we meerdere vooraf getrainde en fijn afgestemde LLM-gebaseerde benaderingen voor en voeren we empirische studies uit op verschillende datasets om deze methoden te vergelijken. Experimentele resultaten tonen aan dat modellen die getraind zijn op de obfuscatiecorpora vergelijkbare prestaties kunnen bereiken met modellen die getraind zijn op de originele gegevens zonder privacybeschermende tokenmaskering.
English
Model adaptation is crucial to handle the discrepancy between proxy training
data and actual users data received. To effectively perform adaptation, textual
data of users is typically stored on servers or their local devices, where
downstream natural language processing (NLP) models can be directly trained
using such in-domain data. However, this might raise privacy and security
concerns due to the extra risks of exposing user information to adversaries.
Replacing identifying information in textual data with a generic marker has
been recently explored. In this work, we leverage large language models (LLMs)
to suggest substitutes of masked tokens and have their effectiveness evaluated
on downstream language modeling tasks. Specifically, we propose multiple
pre-trained and fine-tuned LLM-based approaches and perform empirical studies
on various datasets for the comparison of these methods. Experimental results
show that models trained on the obfuscation corpora are able to achieve
comparable performance with the ones trained on the original data without
privacy-preserving token masking.