Steuerung der Extraktion von gespeicherten Daten aus großen Sprachmodellen durch Prompt-Tuning

papers.abstract

Große Sprachmodelle (LLMs) sind dafür bekannt, signifikante Teile ihrer Trainingsdaten zu memorisieren. Es wurde gezeigt, dass Teile dieser memorisierten Inhalte durch einfaches Abfragen des Modells extrahiert werden können, was ein Datenschutzrisiko darstellt. Wir präsentieren einen neuartigen Ansatz, der Prompt-Tuning verwendet, um die Extraktionsraten von memorisierten Inhalten in LLMs zu steuern. Wir stellen zwei Prompt-Trainingsstrategien vor, um die Extraktionsraten zu erhöhen und zu verringern, die jeweils einem Angriff und einer Verteidigung entsprechen. Wir demonstrieren die Wirksamkeit unserer Techniken anhand von Modellen der GPT-Neo-Familie auf einem öffentlichen Benchmark. Für das GPT-Neo-Modell mit 1,3 Milliarden Parametern führt unser Angriff zu einer Steigerung der Extraktionsrate um 9,3 Prozentpunkte im Vergleich zu unserer Baseline. Unsere Verteidigung kann so angepasst werden, dass sie verschiedene Kompromisse zwischen Datenschutz und Nutzen durch einen benutzerdefinierten Hyperparameter erreicht. Wir erreichen eine Reduzierung der Extraktionsrate von bis zu 97,7 % relativ zu unserer Baseline, bei einer Zunahme der Perplexität um 16,9 %.

English

Large Language Models (LLMs) are known to memorize significant portions of their training data. Parts of this memorized content have been shown to be extractable by simply querying the model, which poses a privacy risk. We present a novel approach which uses prompt-tuning to control the extraction rates of memorized content in LLMs. We present two prompt training strategies to increase and decrease extraction rates, which correspond to an attack and a defense, respectively. We demonstrate the effectiveness of our techniques by using models from the GPT-Neo family on a public benchmark. For the 1.3B parameter GPT-Neo model, our attack yields a 9.3 percentage point increase in extraction rate compared to our baseline. Our defense can be tuned to achieve different privacy-utility trade-offs by a user-specified hyperparameter. We achieve an extraction rate reduction of up to 97.7% relative to our baseline, with a perplexity increase of 16.9%.

Steuerung der Extraktion von gespeicherten Daten aus großen Sprachmodellen durch Prompt-Tuning

Controlling the Extraction of Memorized Data from Large Language Models via Prompt-Tuning

papers.abstract

Support