Recupero da mascheramenti preservanti la privacy con modelli linguistici di grandi dimensioni

Abstract

L'adattamento del modello è cruciale per gestire la discrepanza tra i dati di addestramento proxy e i dati effettivi degli utenti ricevuti. Per eseguire efficacemente l'adattamento, i dati testuali degli utenti vengono tipicamente memorizzati sui server o sui loro dispositivi locali, dove i modelli di elaborazione del linguaggio naturale (NLP) downstream possono essere addestrati direttamente utilizzando tali dati in dominio. Tuttavia, ciò potrebbe sollevare preoccupazioni relative alla privacy e alla sicurezza a causa dei rischi aggiuntivi di esposizione delle informazioni degli utenti a potenziali avversari. La sostituzione delle informazioni identificative nei dati testuali con un marcatore generico è stata recentemente esplorata. In questo lavoro, sfruttiamo i grandi modelli linguistici (LLM) per suggerire sostituti dei token mascherati e valutiamo la loro efficacia su compiti di modellazione del linguaggio downstream. Nello specifico, proponiamo approcci multipli basati su LLM pre-addestrati e fine-tuned e conduciamo studi empirici su vari dataset per il confronto di questi metodi. I risultati sperimentali mostrano che i modelli addestrati sui corpora offuscati sono in grado di ottenere prestazioni comparabili con quelli addestrati sui dati originali senza l'uso di mascheramento dei token per la preservazione della privacy.

English

Model adaptation is crucial to handle the discrepancy between proxy training data and actual users data received. To effectively perform adaptation, textual data of users is typically stored on servers or their local devices, where downstream natural language processing (NLP) models can be directly trained using such in-domain data. However, this might raise privacy and security concerns due to the extra risks of exposing user information to adversaries. Replacing identifying information in textual data with a generic marker has been recently explored. In this work, we leverage large language models (LLMs) to suggest substitutes of masked tokens and have their effectiveness evaluated on downstream language modeling tasks. Specifically, we propose multiple pre-trained and fine-tuned LLM-based approaches and perform empirical studies on various datasets for the comparison of these methods. Experimental results show that models trained on the obfuscation corpora are able to achieve comparable performance with the ones trained on the original data without privacy-preserving token masking.

Recupero da mascheramenti preservanti la privacy con modelli linguistici di grandi dimensioni

Recovering from Privacy-Preserving Masking with Large Language Models

Abstract

Support