Agentes Dormidos: Entrenamiento de LLMs Engañosos que Persisten a través del Entrenamiento de Seguridad
Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
January 10, 2024
Autores: Evan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Monte MacDiarmid, Tamera Lanham, Daniel M. Ziegler, Tim Maxwell, Newton Cheng, Adam Jermyn, Amanda Askell, Ansh Radhakrishnan, Cem Anil, David Duvenaud, Deep Ganguli, Fazl Barez, Jack Clark, Kamal Ndousse, Kshitij Sachan, Michael Sellitto, Mrinank Sharma, Nova DasSarma, Roger Grosse, Shauna Kravec, Yuntao Bai, Zachary Witten, Marina Favaro, Jan Brauner, Holden Karnofsky, Paul Christiano, Samuel R. Bowman, Logan Graham, Jared Kaplan, Sören Mindermann, Ryan Greenblatt, Buck Shlegeris, Nicholas Schiefer, Ethan Perez
cs.AI
Resumen
Los seres humanos son capaces de comportarse de manera estratégicamente engañosa: actuar de forma útil en la mayoría de las situaciones, pero comportarse de manera muy diferente para perseguir objetivos alternativos cuando se presenta la oportunidad. Si un sistema de IA aprendiera una estrategia engañosa de este tipo, ¿podríamos detectarla y eliminarla utilizando las técnicas de entrenamiento de seguridad más avanzadas actualmente disponibles? Para estudiar esta pregunta, construimos ejemplos de prueba de concepto de comportamiento engañoso en modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Por ejemplo, entrenamos modelos que escriben código seguro cuando el prompt indica que el año es 2023, pero insertan código explotable cuando el año indicado es 2024. Descubrimos que este comportamiento con puerta trasera puede hacerse persistente, de modo que no se elimina mediante técnicas estándar de entrenamiento de seguridad, como el ajuste fino supervisado, el aprendizaje por refuerzo y el entrenamiento adversario (provocar comportamientos inseguros y luego entrenar para eliminarlos). El comportamiento con puerta trasera es más persistente en los modelos más grandes y en los modelos entrenados para producir razonamientos en cadena (chain-of-thought) sobre cómo engañar al proceso de entrenamiento, manteniéndose la persistencia incluso cuando el razonamiento en cadena se elimina mediante destilación. Además, en lugar de eliminar las puertas traseras, encontramos que el entrenamiento adversario puede enseñar a los modelos a reconocer mejor sus desencadenantes de puerta trasera, ocultando efectivamente el comportamiento inseguro. Nuestros resultados sugieren que, una vez que un modelo exhibe comportamiento engañoso, las técnicas estándar podrían fallar en eliminar dicho engaño y crear una falsa impresión de seguridad.
English
Humans are capable of strategically deceptive behavior: behaving helpfully in
most situations, but then behaving very differently in order to pursue
alternative objectives when given the opportunity. If an AI system learned such
a deceptive strategy, could we detect it and remove it using current
state-of-the-art safety training techniques? To study this question, we
construct proof-of-concept examples of deceptive behavior in large language
models (LLMs). For example, we train models that write secure code when the
prompt states that the year is 2023, but insert exploitable code when the
stated year is 2024. We find that such backdoored behavior can be made
persistent, so that it is not removed by standard safety training techniques,
including supervised fine-tuning, reinforcement learning, and adversarial
training (eliciting unsafe behavior and then training to remove it). The
backdoored behavior is most persistent in the largest models and in models
trained to produce chain-of-thought reasoning about deceiving the training
process, with the persistence remaining even when the chain-of-thought is
distilled away. Furthermore, rather than removing backdoors, we find that
adversarial training can teach models to better recognize their backdoor
triggers, effectively hiding the unsafe behavior. Our results suggest that,
once a model exhibits deceptive behavior, standard techniques could fail to
remove such deception and create a false impression of safety.