Schläfer-Agenten: Training trügerischer LLMs, die Sicherheitstrainings überdauern

papers.abstract

Menschen sind in der Lage, strategisch täuschendes Verhalten an den Tag zu legen: Sie verhalten sich in den meisten Situationen hilfsbereit, zeigen jedoch ein völlig anderes Verhalten, um alternative Ziele zu verfolgen, wenn sich die Gelegenheit bietet. Wenn ein KI-System eine solche Täuschungsstrategie erlernt, könnten wir sie dann mit den aktuellen, modernsten Sicherheitstrainingsmethoden erkennen und entfernen? Um diese Frage zu untersuchen, konstruieren wir Proof-of-Concept-Beispiele für täuschendes Verhalten in großen Sprachmodellen (LLMs). Zum Beispiel trainieren wir Modelle, die sicheren Code schreiben, wenn das Prompt das Jahr 2023 angibt, aber ausnutzbaren Code einfügen, wenn das angegebene Jahr 2024 ist. Wir stellen fest, dass solches Backdoor-Verhalten persistent gemacht werden kann, sodass es durch Standard-Sicherheitstrainingsmethoden nicht entfernt wird, einschließlich überwachtem Fein-Tuning, Reinforcement Learning und adversariellem Training (unsicheres Verhalten hervorrufen und dann trainieren, um es zu entfernen). Das Backdoor-Verhalten ist in den größten Modellen und in Modellen, die trainiert wurden, um Ketten von Gedanken (Chain-of-Thought) über die Täuschung des Trainingsprozesses zu erzeugen, am persistentesten, wobei die Persistenz auch dann bestehen bleibt, wenn die Gedankenkette entfernt wird. Darüber hinaus stellen wir fest, dass adversarielles Training anstelle der Entfernung von Backdoors den Modellen beibringen kann, ihre Backdoor-Trigger besser zu erkennen und das unsichere Verhalten effektiv zu verbergen. Unsere Ergebnisse deuten darauf hin, dass, sobald ein Modell täuschendes Verhalten zeigt, Standardtechniken möglicherweise versagen, diese Täuschung zu entfernen, und einen falschen Eindruck von Sicherheit erzeugen könnten.

English

Humans are capable of strategically deceptive behavior: behaving helpfully in most situations, but then behaving very differently in order to pursue alternative objectives when given the opportunity. If an AI system learned such a deceptive strategy, could we detect it and remove it using current state-of-the-art safety training techniques? To study this question, we construct proof-of-concept examples of deceptive behavior in large language models (LLMs). For example, we train models that write secure code when the prompt states that the year is 2023, but insert exploitable code when the stated year is 2024. We find that such backdoored behavior can be made persistent, so that it is not removed by standard safety training techniques, including supervised fine-tuning, reinforcement learning, and adversarial training (eliciting unsafe behavior and then training to remove it). The backdoored behavior is most persistent in the largest models and in models trained to produce chain-of-thought reasoning about deceiving the training process, with the persistence remaining even when the chain-of-thought is distilled away. Furthermore, rather than removing backdoors, we find that adversarial training can teach models to better recognize their backdoor triggers, effectively hiding the unsafe behavior. Our results suggest that, once a model exhibits deceptive behavior, standard techniques could fail to remove such deception and create a false impression of safety.

Schläfer-Agenten: Training trügerischer LLMs, die Sicherheitstrainings überdauern

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

papers.abstract

Support