Récupération après masquage préservant la confidentialité avec des modèles de langage à grande échelle
Recovering from Privacy-Preserving Masking with Large Language Models
September 12, 2023
Auteurs: Arpita Vats, Zhe Liu, Peng Su, Debjyoti Paul, Yingyi Ma, Yutong Pang, Zeeshan Ahmed, Ozlem Kalinli
cs.AI
Résumé
L'adaptation des modèles est cruciale pour gérer l'écart entre les données d'entraînement proxy et les données réelles des utilisateurs. Pour effectuer cette adaptation de manière efficace, les données textuelles des utilisateurs sont généralement stockées sur des serveurs ou leurs appareils locaux, où les modèles de traitement du langage naturel (NLP) en aval peuvent être directement entraînés en utilisant ces données spécifiques au domaine. Cependant, cela peut soulever des préoccupations en matière de confidentialité et de sécurité en raison des risques supplémentaires d'exposition des informations des utilisateurs à des adversaires. Le remplacement des informations d'identification dans les données textuelles par un marqueur générique a récemment été exploré. Dans ce travail, nous exploitons les grands modèles de langage (LLM) pour suggérer des substituts aux tokens masqués et évaluons leur efficacité sur des tâches de modélisation du langage en aval. Plus précisément, nous proposons plusieurs approches basées sur des LLM pré-entraînés et affinés, et réalisons des études empiriques sur divers ensembles de données pour comparer ces méthodes. Les résultats expérimentaux montrent que les modèles entraînés sur les corpus obfusqués sont capables d'atteindre des performances comparables à celles des modèles entraînés sur les données originales sans masquage préservant la confidentialité des tokens.
English
Model adaptation is crucial to handle the discrepancy between proxy training
data and actual users data received. To effectively perform adaptation, textual
data of users is typically stored on servers or their local devices, where
downstream natural language processing (NLP) models can be directly trained
using such in-domain data. However, this might raise privacy and security
concerns due to the extra risks of exposing user information to adversaries.
Replacing identifying information in textual data with a generic marker has
been recently explored. In this work, we leverage large language models (LLMs)
to suggest substitutes of masked tokens and have their effectiveness evaluated
on downstream language modeling tasks. Specifically, we propose multiple
pre-trained and fine-tuned LLM-based approaches and perform empirical studies
on various datasets for the comparison of these methods. Experimental results
show that models trained on the obfuscation corpora are able to achieve
comparable performance with the ones trained on the original data without
privacy-preserving token masking.