Steuerung der Extraktion von gespeicherten Daten aus großen Sprachmodellen durch Prompt-Tuning
Controlling the Extraction of Memorized Data from Large Language Models via Prompt-Tuning
May 19, 2023
Autoren: Mustafa Safa Ozdayi, Charith Peris, Jack FitzGerald, Christophe Dupuy, Jimit Majmudar, Haidar Khan, Rahil Parikh, Rahul Gupta
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) sind dafür bekannt, signifikante Teile ihrer Trainingsdaten zu memorisieren. Es wurde gezeigt, dass Teile dieser memorisierten Inhalte durch einfaches Abfragen des Modells extrahiert werden können, was ein Datenschutzrisiko darstellt. Wir präsentieren einen neuartigen Ansatz, der Prompt-Tuning verwendet, um die Extraktionsraten von memorisierten Inhalten in LLMs zu steuern. Wir stellen zwei Prompt-Trainingsstrategien vor, um die Extraktionsraten zu erhöhen und zu verringern, die jeweils einem Angriff und einer Verteidigung entsprechen. Wir demonstrieren die Wirksamkeit unserer Techniken anhand von Modellen der GPT-Neo-Familie auf einem öffentlichen Benchmark. Für das GPT-Neo-Modell mit 1,3 Milliarden Parametern führt unser Angriff zu einer Steigerung der Extraktionsrate um 9,3 Prozentpunkte im Vergleich zu unserer Baseline. Unsere Verteidigung kann so angepasst werden, dass sie verschiedene Kompromisse zwischen Datenschutz und Nutzen durch einen benutzerdefinierten Hyperparameter erreicht. Wir erreichen eine Reduzierung der Extraktionsrate von bis zu 97,7 % relativ zu unserer Baseline, bei einer Zunahme der Perplexität um 16,9 %.
English
Large Language Models (LLMs) are known to memorize significant portions of
their training data. Parts of this memorized content have been shown to be
extractable by simply querying the model, which poses a privacy risk. We
present a novel approach which uses prompt-tuning to control the extraction
rates of memorized content in LLMs. We present two prompt training strategies
to increase and decrease extraction rates, which correspond to an attack and a
defense, respectively. We demonstrate the effectiveness of our techniques by
using models from the GPT-Neo family on a public benchmark. For the 1.3B
parameter GPT-Neo model, our attack yields a 9.3 percentage point increase in
extraction rate compared to our baseline. Our defense can be tuned to achieve
different privacy-utility trade-offs by a user-specified hyperparameter. We
achieve an extraction rate reduction of up to 97.7% relative to our baseline,
with a perplexity increase of 16.9%.