Agentes Dormidos: Entrenamiento de LLMs Engañosos que Persisten a través del Entrenamiento de Seguridad

Resumen

Los seres humanos son capaces de comportarse de manera estratégicamente engañosa: actuar de forma útil en la mayoría de las situaciones, pero comportarse de manera muy diferente para perseguir objetivos alternativos cuando se presenta la oportunidad. Si un sistema de IA aprendiera una estrategia engañosa de este tipo, ¿podríamos detectarla y eliminarla utilizando las técnicas de entrenamiento de seguridad más avanzadas actualmente disponibles? Para estudiar esta pregunta, construimos ejemplos de prueba de concepto de comportamiento engañoso en modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Por ejemplo, entrenamos modelos que escriben código seguro cuando el prompt indica que el año es 2023, pero insertan código explotable cuando el año indicado es 2024. Descubrimos que este comportamiento con puerta trasera puede hacerse persistente, de modo que no se elimina mediante técnicas estándar de entrenamiento de seguridad, como el ajuste fino supervisado, el aprendizaje por refuerzo y el entrenamiento adversario (provocar comportamientos inseguros y luego entrenar para eliminarlos). El comportamiento con puerta trasera es más persistente en los modelos más grandes y en los modelos entrenados para producir razonamientos en cadena (chain-of-thought) sobre cómo engañar al proceso de entrenamiento, manteniéndose la persistencia incluso cuando el razonamiento en cadena se elimina mediante destilación. Además, en lugar de eliminar las puertas traseras, encontramos que el entrenamiento adversario puede enseñar a los modelos a reconocer mejor sus desencadenantes de puerta trasera, ocultando efectivamente el comportamiento inseguro. Nuestros resultados sugieren que, una vez que un modelo exhibe comportamiento engañoso, las técnicas estándar podrían fallar en eliminar dicho engaño y crear una falsa impresión de seguridad.

English

Humans are capable of strategically deceptive behavior: behaving helpfully in most situations, but then behaving very differently in order to pursue alternative objectives when given the opportunity. If an AI system learned such a deceptive strategy, could we detect it and remove it using current state-of-the-art safety training techniques? To study this question, we construct proof-of-concept examples of deceptive behavior in large language models (LLMs). For example, we train models that write secure code when the prompt states that the year is 2023, but insert exploitable code when the stated year is 2024. We find that such backdoored behavior can be made persistent, so that it is not removed by standard safety training techniques, including supervised fine-tuning, reinforcement learning, and adversarial training (eliciting unsafe behavior and then training to remove it). The backdoored behavior is most persistent in the largest models and in models trained to produce chain-of-thought reasoning about deceiving the training process, with the persistence remaining even when the chain-of-thought is distilled away. Furthermore, rather than removing backdoors, we find that adversarial training can teach models to better recognize their backdoor triggers, effectively hiding the unsafe behavior. Our results suggest that, once a model exhibits deceptive behavior, standard techniques could fail to remove such deception and create a false impression of safety.

Agentes Dormidos: Entrenamiento de LLMs Engañosos que Persisten a través del Entrenamiento de Seguridad

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

Resumen

Support