ChatPaper.aiChatPaper

Controllo dell'Estrazione di Dati Memorizzati da Modelli Linguistici di Grandi Dimensioni tramite Prompt-Tuning

Controlling the Extraction of Memorized Data from Large Language Models via Prompt-Tuning

May 19, 2023
Autori: Mustafa Safa Ozdayi, Charith Peris, Jack FitzGerald, Christophe Dupuy, Jimit Majmudar, Haidar Khan, Rahil Parikh, Rahul Gupta
cs.AI

Abstract

I Large Language Model (LLM) sono noti per memorizzare porzioni significative dei loro dati di addestramento. È stato dimostrato che parti di questo contenuto memorizzato possono essere estratte semplicemente interrogando il modello, il che rappresenta un rischio per la privacy. Presentiamo un approccio innovativo che utilizza il prompt-tuning per controllare i tassi di estrazione del contenuto memorizzato nei LLM. Proponiamo due strategie di addestramento dei prompt per aumentare e diminuire i tassi di estrazione, che corrispondono rispettivamente a un attacco e a una difesa. Dimostriamo l'efficacia delle nostre tecniche utilizzando modelli della famiglia GPT-Neo su un benchmark pubblico. Per il modello GPT-Neo da 1,3 miliardi di parametri, il nostro attacco produce un aumento del 9,3% nel tasso di estrazione rispetto alla nostra baseline. La nostra difesa può essere regolata per ottenere diversi compromessi tra privacy e utilità attraverso un iperparametro specificato dall'utente. Raggiungiamo una riduzione del tasso di estrazione fino al 97,7% rispetto alla nostra baseline, con un aumento della perplessità del 16,9%.
English
Large Language Models (LLMs) are known to memorize significant portions of their training data. Parts of this memorized content have been shown to be extractable by simply querying the model, which poses a privacy risk. We present a novel approach which uses prompt-tuning to control the extraction rates of memorized content in LLMs. We present two prompt training strategies to increase and decrease extraction rates, which correspond to an attack and a defense, respectively. We demonstrate the effectiveness of our techniques by using models from the GPT-Neo family on a public benchmark. For the 1.3B parameter GPT-Neo model, our attack yields a 9.3 percentage point increase in extraction rate compared to our baseline. Our defense can be tuned to achieve different privacy-utility trade-offs by a user-specified hyperparameter. We achieve an extraction rate reduction of up to 97.7% relative to our baseline, with a perplexity increase of 16.9%.
PDF20February 8, 2026