Schläfer-Agenten: Training trügerischer LLMs, die Sicherheitstrainings überdauern
Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
January 10, 2024
Autoren: Evan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Monte MacDiarmid, Tamera Lanham, Daniel M. Ziegler, Tim Maxwell, Newton Cheng, Adam Jermyn, Amanda Askell, Ansh Radhakrishnan, Cem Anil, David Duvenaud, Deep Ganguli, Fazl Barez, Jack Clark, Kamal Ndousse, Kshitij Sachan, Michael Sellitto, Mrinank Sharma, Nova DasSarma, Roger Grosse, Shauna Kravec, Yuntao Bai, Zachary Witten, Marina Favaro, Jan Brauner, Holden Karnofsky, Paul Christiano, Samuel R. Bowman, Logan Graham, Jared Kaplan, Sören Mindermann, Ryan Greenblatt, Buck Shlegeris, Nicholas Schiefer, Ethan Perez
cs.AI
Zusammenfassung
Menschen sind in der Lage, strategisch täuschendes Verhalten an den Tag zu legen: Sie verhalten sich in den meisten Situationen hilfsbereit, zeigen jedoch ein völlig anderes Verhalten, um alternative Ziele zu verfolgen, wenn sich die Gelegenheit bietet. Wenn ein KI-System eine solche Täuschungsstrategie erlernt, könnten wir sie dann mit den aktuellen, modernsten Sicherheitstrainingsmethoden erkennen und entfernen? Um diese Frage zu untersuchen, konstruieren wir Proof-of-Concept-Beispiele für täuschendes Verhalten in großen Sprachmodellen (LLMs). Zum Beispiel trainieren wir Modelle, die sicheren Code schreiben, wenn das Prompt das Jahr 2023 angibt, aber ausnutzbaren Code einfügen, wenn das angegebene Jahr 2024 ist. Wir stellen fest, dass solches Backdoor-Verhalten persistent gemacht werden kann, sodass es durch Standard-Sicherheitstrainingsmethoden nicht entfernt wird, einschließlich überwachtem Fein-Tuning, Reinforcement Learning und adversariellem Training (unsicheres Verhalten hervorrufen und dann trainieren, um es zu entfernen). Das Backdoor-Verhalten ist in den größten Modellen und in Modellen, die trainiert wurden, um Ketten von Gedanken (Chain-of-Thought) über die Täuschung des Trainingsprozesses zu erzeugen, am persistentesten, wobei die Persistenz auch dann bestehen bleibt, wenn die Gedankenkette entfernt wird. Darüber hinaus stellen wir fest, dass adversarielles Training anstelle der Entfernung von Backdoors den Modellen beibringen kann, ihre Backdoor-Trigger besser zu erkennen und das unsichere Verhalten effektiv zu verbergen. Unsere Ergebnisse deuten darauf hin, dass, sobald ein Modell täuschendes Verhalten zeigt, Standardtechniken möglicherweise versagen, diese Täuschung zu entfernen, und einen falschen Eindruck von Sicherheit erzeugen könnten.
English
Humans are capable of strategically deceptive behavior: behaving helpfully in
most situations, but then behaving very differently in order to pursue
alternative objectives when given the opportunity. If an AI system learned such
a deceptive strategy, could we detect it and remove it using current
state-of-the-art safety training techniques? To study this question, we
construct proof-of-concept examples of deceptive behavior in large language
models (LLMs). For example, we train models that write secure code when the
prompt states that the year is 2023, but insert exploitable code when the
stated year is 2024. We find that such backdoored behavior can be made
persistent, so that it is not removed by standard safety training techniques,
including supervised fine-tuning, reinforcement learning, and adversarial
training (eliciting unsafe behavior and then training to remove it). The
backdoored behavior is most persistent in the largest models and in models
trained to produce chain-of-thought reasoning about deceiving the training
process, with the persistence remaining even when the chain-of-thought is
distilled away. Furthermore, rather than removing backdoors, we find that
adversarial training can teach models to better recognize their backdoor
triggers, effectively hiding the unsafe behavior. Our results suggest that,
once a model exhibits deceptive behavior, standard techniques could fail to
remove such deception and create a false impression of safety.