Wiederherstellung aus privatsphäreschützender Maskierung mit großen Sprachmodellen

papers.abstract

Die Modellanpassung ist entscheidend, um die Diskrepanz zwischen den Proxy-Trainingsdaten und den tatsächlichen Benutzerdaten zu bewältigen. Um eine effektive Anpassung durchzuführen, werden Textdaten der Benutzer typischerweise auf Servern oder ihren lokalen Geräten gespeichert, wo nachgelagerte Modelle der natürlichen Sprachverarbeitung (NLP) direkt mit solchen domänenspezifischen Daten trainiert werden können. Dies könnte jedoch Datenschutz- und Sicherheitsbedenken aufwerfen, da das Risiko besteht, dass Benutzerinformationen für Angreifer zugänglich werden. Das Ersetzen von identifizierenden Informationen in Textdaten durch einen generischen Marker wurde kürzlich untersucht. In dieser Arbeit nutzen wir große Sprachmodelle (LLMs), um Ersatzvorschläge für maskierte Tokens zu generieren und deren Wirksamkeit bei nachgelagerten Sprachmodellierungsaufgaben zu bewerten. Insbesondere schlagen wir mehrere vortrainierte und feinabgestimmte LLM-basierte Ansätze vor und führen empirische Studien auf verschiedenen Datensätzen durch, um diese Methoden zu vergleichen. Die experimentellen Ergebnisse zeigen, dass Modelle, die auf den verschleierten Korpora trainiert wurden, eine vergleichbare Leistung erzielen können wie Modelle, die auf den ursprünglichen Daten ohne datenschutzbewahrende Token-Maskierung trainiert wurden.

English

Model adaptation is crucial to handle the discrepancy between proxy training data and actual users data received. To effectively perform adaptation, textual data of users is typically stored on servers or their local devices, where downstream natural language processing (NLP) models can be directly trained using such in-domain data. However, this might raise privacy and security concerns due to the extra risks of exposing user information to adversaries. Replacing identifying information in textual data with a generic marker has been recently explored. In this work, we leverage large language models (LLMs) to suggest substitutes of masked tokens and have their effectiveness evaluated on downstream language modeling tasks. Specifically, we propose multiple pre-trained and fine-tuned LLM-based approaches and perform empirical studies on various datasets for the comparison of these methods. Experimental results show that models trained on the obfuscation corpora are able to achieve comparable performance with the ones trained on the original data without privacy-preserving token masking.

Wiederherstellung aus privatsphäreschützender Maskierung mit großen Sprachmodellen

Recovering from Privacy-Preserving Masking with Large Language Models

papers.abstract

Support