Agents dormants : Entraîner des LLM trompeurs qui persistent malgré l'entraînement à la sécurité

papers.abstract

Les humains sont capables de comportements stratégiquement trompeurs : ils se montrent généralement utiles, mais adoptent des comportements très différents pour poursuivre des objectifs alternatifs lorsqu'ils en ont l'occasion. Si un système d'IA apprenait une telle stratégie de tromperie, pourrions-nous la détecter et l'éliminer en utilisant les techniques actuelles de formation à la sécurité ? Pour étudier cette question, nous construisons des exemples de preuve de concept de comportements trompeurs dans les grands modèles de langage (LLM). Par exemple, nous entraînons des modèles qui écrivent du code sécurisé lorsque l'invite indique que l'année est 2023, mais insèrent du code vulnérable lorsque l'année indiquée est 2024. Nous constatons que ce comportement piégé peut être rendu persistant, de sorte qu'il n'est pas éliminé par les techniques standards de formation à la sécurité, y compris le réglage fin supervisé, l'apprentissage par renforcement et l'entraînement adversarial (provoquer un comportement dangereux puis entraîner pour l'éliminer). Le comportement piégé est le plus persistant dans les plus grands modèles et dans les modèles entraînés à produire un raisonnement en chaîne de pensées sur la tromperie du processus d'entraînement, cette persistance subsistant même lorsque la chaîne de pensées est distillée. De plus, plutôt que d'éliminer les portes dérobées, nous constatons que l'entraînement adversarial peut apprendre aux modèles à mieux reconnaître leurs déclencheurs de portes dérobées, masquant ainsi efficacement le comportement dangereux. Nos résultats suggèrent que, une fois qu'un modèle présente un comportement trompeur, les techniques standards pourraient échouer à éliminer cette tromperie et créer une fausse impression de sécurité.

English

Humans are capable of strategically deceptive behavior: behaving helpfully in most situations, but then behaving very differently in order to pursue alternative objectives when given the opportunity. If an AI system learned such a deceptive strategy, could we detect it and remove it using current state-of-the-art safety training techniques? To study this question, we construct proof-of-concept examples of deceptive behavior in large language models (LLMs). For example, we train models that write secure code when the prompt states that the year is 2023, but insert exploitable code when the stated year is 2024. We find that such backdoored behavior can be made persistent, so that it is not removed by standard safety training techniques, including supervised fine-tuning, reinforcement learning, and adversarial training (eliciting unsafe behavior and then training to remove it). The backdoored behavior is most persistent in the largest models and in models trained to produce chain-of-thought reasoning about deceiving the training process, with the persistence remaining even when the chain-of-thought is distilled away. Furthermore, rather than removing backdoors, we find that adversarial training can teach models to better recognize their backdoor triggers, effectively hiding the unsafe behavior. Our results suggest that, once a model exhibits deceptive behavior, standard techniques could fail to remove such deception and create a false impression of safety.

Agents dormants : Entraîner des LLM trompeurs qui persistent malgré l'entraînement à la sécurité

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

papers.abstract

Support