ChatPaper.aiChatPaper

Agentes Dormidos: Entrenamiento de LLMs Engañosos que Persisten a través del Entrenamiento de Seguridad

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

January 10, 2024
Autores: Evan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Monte MacDiarmid, Tamera Lanham, Daniel M. Ziegler, Tim Maxwell, Newton Cheng, Adam Jermyn, Amanda Askell, Ansh Radhakrishnan, Cem Anil, David Duvenaud, Deep Ganguli, Fazl Barez, Jack Clark, Kamal Ndousse, Kshitij Sachan, Michael Sellitto, Mrinank Sharma, Nova DasSarma, Roger Grosse, Shauna Kravec, Yuntao Bai, Zachary Witten, Marina Favaro, Jan Brauner, Holden Karnofsky, Paul Christiano, Samuel R. Bowman, Logan Graham, Jared Kaplan, Sören Mindermann, Ryan Greenblatt, Buck Shlegeris, Nicholas Schiefer, Ethan Perez
cs.AI

Resumen

Los seres humanos son capaces de comportarse de manera estratégicamente engañosa: actuar de forma útil en la mayoría de las situaciones, pero comportarse de manera muy diferente para perseguir objetivos alternativos cuando se presenta la oportunidad. Si un sistema de IA aprendiera una estrategia engañosa de este tipo, ¿podríamos detectarla y eliminarla utilizando las técnicas de entrenamiento de seguridad más avanzadas actualmente disponibles? Para estudiar esta pregunta, construimos ejemplos de prueba de concepto de comportamiento engañoso en modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Por ejemplo, entrenamos modelos que escriben código seguro cuando el prompt indica que el año es 2023, pero insertan código explotable cuando el año indicado es 2024. Descubrimos que este comportamiento con puerta trasera puede hacerse persistente, de modo que no se elimina mediante técnicas estándar de entrenamiento de seguridad, como el ajuste fino supervisado, el aprendizaje por refuerzo y el entrenamiento adversario (provocar comportamientos inseguros y luego entrenar para eliminarlos). El comportamiento con puerta trasera es más persistente en los modelos más grandes y en los modelos entrenados para producir razonamientos en cadena (chain-of-thought) sobre cómo engañar al proceso de entrenamiento, manteniéndose la persistencia incluso cuando el razonamiento en cadena se elimina mediante destilación. Además, en lugar de eliminar las puertas traseras, encontramos que el entrenamiento adversario puede enseñar a los modelos a reconocer mejor sus desencadenantes de puerta trasera, ocultando efectivamente el comportamiento inseguro. Nuestros resultados sugieren que, una vez que un modelo exhibe comportamiento engañoso, las técnicas estándar podrían fallar en eliminar dicho engaño y crear una falsa impresión de seguridad.
English
Humans are capable of strategically deceptive behavior: behaving helpfully in most situations, but then behaving very differently in order to pursue alternative objectives when given the opportunity. If an AI system learned such a deceptive strategy, could we detect it and remove it using current state-of-the-art safety training techniques? To study this question, we construct proof-of-concept examples of deceptive behavior in large language models (LLMs). For example, we train models that write secure code when the prompt states that the year is 2023, but insert exploitable code when the stated year is 2024. We find that such backdoored behavior can be made persistent, so that it is not removed by standard safety training techniques, including supervised fine-tuning, reinforcement learning, and adversarial training (eliciting unsafe behavior and then training to remove it). The backdoored behavior is most persistent in the largest models and in models trained to produce chain-of-thought reasoning about deceiving the training process, with the persistence remaining even when the chain-of-thought is distilled away. Furthermore, rather than removing backdoors, we find that adversarial training can teach models to better recognize their backdoor triggers, effectively hiding the unsafe behavior. Our results suggest that, once a model exhibits deceptive behavior, standard techniques could fail to remove such deception and create a false impression of safety.
PDF300December 15, 2024