Wiederherstellung aus privatsphäreschützender Maskierung mit großen Sprachmodellen
Recovering from Privacy-Preserving Masking with Large Language Models
September 12, 2023
Autoren: Arpita Vats, Zhe Liu, Peng Su, Debjyoti Paul, Yingyi Ma, Yutong Pang, Zeeshan Ahmed, Ozlem Kalinli
cs.AI
Zusammenfassung
Die Modellanpassung ist entscheidend, um die Diskrepanz zwischen den Proxy-Trainingsdaten und den tatsächlichen Benutzerdaten zu bewältigen. Um eine effektive Anpassung durchzuführen, werden Textdaten der Benutzer typischerweise auf Servern oder ihren lokalen Geräten gespeichert, wo nachgelagerte Modelle der natürlichen Sprachverarbeitung (NLP) direkt mit solchen domänenspezifischen Daten trainiert werden können. Dies könnte jedoch Datenschutz- und Sicherheitsbedenken aufwerfen, da das Risiko besteht, dass Benutzerinformationen für Angreifer zugänglich werden. Das Ersetzen von identifizierenden Informationen in Textdaten durch einen generischen Marker wurde kürzlich untersucht. In dieser Arbeit nutzen wir große Sprachmodelle (LLMs), um Ersatzvorschläge für maskierte Tokens zu generieren und deren Wirksamkeit bei nachgelagerten Sprachmodellierungsaufgaben zu bewerten. Insbesondere schlagen wir mehrere vortrainierte und feinabgestimmte LLM-basierte Ansätze vor und führen empirische Studien auf verschiedenen Datensätzen durch, um diese Methoden zu vergleichen. Die experimentellen Ergebnisse zeigen, dass Modelle, die auf den verschleierten Korpora trainiert wurden, eine vergleichbare Leistung erzielen können wie Modelle, die auf den ursprünglichen Daten ohne datenschutzbewahrende Token-Maskierung trainiert wurden.
English
Model adaptation is crucial to handle the discrepancy between proxy training
data and actual users data received. To effectively perform adaptation, textual
data of users is typically stored on servers or their local devices, where
downstream natural language processing (NLP) models can be directly trained
using such in-domain data. However, this might raise privacy and security
concerns due to the extra risks of exposing user information to adversaries.
Replacing identifying information in textual data with a generic marker has
been recently explored. In this work, we leverage large language models (LLMs)
to suggest substitutes of masked tokens and have their effectiveness evaluated
on downstream language modeling tasks. Specifically, we propose multiple
pre-trained and fine-tuned LLM-based approaches and perform empirical studies
on various datasets for the comparison of these methods. Experimental results
show that models trained on the obfuscation corpora are able to achieve
comparable performance with the ones trained on the original data without
privacy-preserving token masking.