Recuperación a partir del enmascaramiento preservador de privacidad con modelos de lenguaje de gran escala
Recovering from Privacy-Preserving Masking with Large Language Models
September 12, 2023
Autores: Arpita Vats, Zhe Liu, Peng Su, Debjyoti Paul, Yingyi Ma, Yutong Pang, Zeeshan Ahmed, Ozlem Kalinli
cs.AI
Resumen
La adaptación del modelo es crucial para manejar la discrepancia entre los datos de entrenamiento proxy y los datos reales de los usuarios. Para realizar esta adaptación de manera efectiva, los datos textuales de los usuarios suelen almacenarse en servidores o en sus dispositivos locales, donde los modelos de procesamiento de lenguaje natural (PLN) pueden entrenarse directamente utilizando dichos datos del dominio específico. Sin embargo, esto podría plantear preocupaciones de privacidad y seguridad debido a los riesgos adicionales de exponer la información de los usuarios a adversarios. Recientemente se ha explorado la posibilidad de reemplazar la información identificable en los datos textuales con un marcador genérico. En este trabajo, aprovechamos los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para sugerir sustitutos de los tokens enmascarados y evaluar su efectividad en tareas de modelado de lenguaje. Específicamente, proponemos múltiples enfoques basados en LLMs preentrenados y ajustados, y realizamos estudios empíricos en varios conjuntos de datos para comparar estos métodos. Los resultados experimentales muestran que los modelos entrenados en los corpus ofuscados son capaces de alcanzar un rendimiento comparable con aquellos entrenados en los datos originales sin el enmascaramiento de tokens que preserva la privacidad.
English
Model adaptation is crucial to handle the discrepancy between proxy training
data and actual users data received. To effectively perform adaptation, textual
data of users is typically stored on servers or their local devices, where
downstream natural language processing (NLP) models can be directly trained
using such in-domain data. However, this might raise privacy and security
concerns due to the extra risks of exposing user information to adversaries.
Replacing identifying information in textual data with a generic marker has
been recently explored. In this work, we leverage large language models (LLMs)
to suggest substitutes of masked tokens and have their effectiveness evaluated
on downstream language modeling tasks. Specifically, we propose multiple
pre-trained and fine-tuned LLM-based approaches and perform empirical studies
on various datasets for the comparison of these methods. Experimental results
show that models trained on the obfuscation corpora are able to achieve
comparable performance with the ones trained on the original data without
privacy-preserving token masking.