Récupération après masquage préservant la confidentialité avec des modèles de langage à grande échelle

Résumé

L'adaptation des modèles est cruciale pour gérer l'écart entre les données d'entraînement proxy et les données réelles des utilisateurs. Pour effectuer cette adaptation de manière efficace, les données textuelles des utilisateurs sont généralement stockées sur des serveurs ou leurs appareils locaux, où les modèles de traitement du langage naturel (NLP) en aval peuvent être directement entraînés en utilisant ces données spécifiques au domaine. Cependant, cela peut soulever des préoccupations en matière de confidentialité et de sécurité en raison des risques supplémentaires d'exposition des informations des utilisateurs à des adversaires. Le remplacement des informations d'identification dans les données textuelles par un marqueur générique a récemment été exploré. Dans ce travail, nous exploitons les grands modèles de langage (LLM) pour suggérer des substituts aux tokens masqués et évaluons leur efficacité sur des tâches de modélisation du langage en aval. Plus précisément, nous proposons plusieurs approches basées sur des LLM pré-entraînés et affinés, et réalisons des études empiriques sur divers ensembles de données pour comparer ces méthodes. Les résultats expérimentaux montrent que les modèles entraînés sur les corpus obfusqués sont capables d'atteindre des performances comparables à celles des modèles entraînés sur les données originales sans masquage préservant la confidentialité des tokens.

English

Model adaptation is crucial to handle the discrepancy between proxy training data and actual users data received. To effectively perform adaptation, textual data of users is typically stored on servers or their local devices, where downstream natural language processing (NLP) models can be directly trained using such in-domain data. However, this might raise privacy and security concerns due to the extra risks of exposing user information to adversaries. Replacing identifying information in textual data with a generic marker has been recently explored. In this work, we leverage large language models (LLMs) to suggest substitutes of masked tokens and have their effectiveness evaluated on downstream language modeling tasks. Specifically, we propose multiple pre-trained and fine-tuned LLM-based approaches and perform empirical studies on various datasets for the comparison of these methods. Experimental results show that models trained on the obfuscation corpora are able to achieve comparable performance with the ones trained on the original data without privacy-preserving token masking.

Récupération après masquage préservant la confidentialité avec des modèles de langage à grande échelle

Recovering from Privacy-Preserving Masking with Large Language Models

Résumé

Support