ChatPaper.aiChatPaper

Recuperación a partir del enmascaramiento preservador de privacidad con modelos de lenguaje de gran escala

Recovering from Privacy-Preserving Masking with Large Language Models

September 12, 2023
Autores: Arpita Vats, Zhe Liu, Peng Su, Debjyoti Paul, Yingyi Ma, Yutong Pang, Zeeshan Ahmed, Ozlem Kalinli
cs.AI

Resumen

La adaptación del modelo es crucial para manejar la discrepancia entre los datos de entrenamiento proxy y los datos reales de los usuarios. Para realizar esta adaptación de manera efectiva, los datos textuales de los usuarios suelen almacenarse en servidores o en sus dispositivos locales, donde los modelos de procesamiento de lenguaje natural (PLN) pueden entrenarse directamente utilizando dichos datos del dominio específico. Sin embargo, esto podría plantear preocupaciones de privacidad y seguridad debido a los riesgos adicionales de exponer la información de los usuarios a adversarios. Recientemente se ha explorado la posibilidad de reemplazar la información identificable en los datos textuales con un marcador genérico. En este trabajo, aprovechamos los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para sugerir sustitutos de los tokens enmascarados y evaluar su efectividad en tareas de modelado de lenguaje. Específicamente, proponemos múltiples enfoques basados en LLMs preentrenados y ajustados, y realizamos estudios empíricos en varios conjuntos de datos para comparar estos métodos. Los resultados experimentales muestran que los modelos entrenados en los corpus ofuscados son capaces de alcanzar un rendimiento comparable con aquellos entrenados en los datos originales sin el enmascaramiento de tokens que preserva la privacidad.
English
Model adaptation is crucial to handle the discrepancy between proxy training data and actual users data received. To effectively perform adaptation, textual data of users is typically stored on servers or their local devices, where downstream natural language processing (NLP) models can be directly trained using such in-domain data. However, this might raise privacy and security concerns due to the extra risks of exposing user information to adversaries. Replacing identifying information in textual data with a generic marker has been recently explored. In this work, we leverage large language models (LLMs) to suggest substitutes of masked tokens and have their effectiveness evaluated on downstream language modeling tasks. Specifically, we propose multiple pre-trained and fine-tuned LLM-based approaches and perform empirical studies on various datasets for the comparison of these methods. Experimental results show that models trained on the obfuscation corpora are able to achieve comparable performance with the ones trained on the original data without privacy-preserving token masking.
PDF50December 15, 2024