Herstellen van privacybeschermende maskering met grote taalmodellen

Samenvatting

Modelaanpassing is cruciaal om het verschil tussen proxytrainingsgegevens en de daadwerkelijke gebruikersgegevens te hanteren. Om effectief aanpassing uit te voeren, worden tekstuele gegevens van gebruikers doorgaans opgeslagen op servers of hun lokale apparaten, waar downstream natural language processing (NLP)-modellen rechtstreeks kunnen worden getraind met dergelijke domeinspecifieke gegevens. Dit kan echter zorgen over privacy en veiligheid oproepen vanwege de extra risico's van het blootstellen van gebruikersinformatie aan tegenstanders. Het vervangen van identificerende informatie in tekstuele gegevens door een generieke marker is recentelijk onderzocht. In dit werk benutten we grote taalmmodellen (LLM's) om vervangingen van gemaskeerde tokens voor te stellen en hun effectiviteit te evalueren op downstream taalmodelleertaken. Specifiek stellen we meerdere vooraf getrainde en fijn afgestemde LLM-gebaseerde benaderingen voor en voeren we empirische studies uit op verschillende datasets om deze methoden te vergelijken. Experimentele resultaten tonen aan dat modellen die getraind zijn op de obfuscatiecorpora vergelijkbare prestaties kunnen bereiken met modellen die getraind zijn op de originele gegevens zonder privacybeschermende tokenmaskering.

English

Model adaptation is crucial to handle the discrepancy between proxy training data and actual users data received. To effectively perform adaptation, textual data of users is typically stored on servers or their local devices, where downstream natural language processing (NLP) models can be directly trained using such in-domain data. However, this might raise privacy and security concerns due to the extra risks of exposing user information to adversaries. Replacing identifying information in textual data with a generic marker has been recently explored. In this work, we leverage large language models (LLMs) to suggest substitutes of masked tokens and have their effectiveness evaluated on downstream language modeling tasks. Specifically, we propose multiple pre-trained and fine-tuned LLM-based approaches and perform empirical studies on various datasets for the comparison of these methods. Experimental results show that models trained on the obfuscation corpora are able to achieve comparable performance with the ones trained on the original data without privacy-preserving token masking.

Herstellen van privacybeschermende maskering met grote taalmodellen

Recovering from Privacy-Preserving Masking with Large Language Models

Samenvatting

Support