Falsificación de alineación en modelos de lenguaje grandes
Alignment faking in large language models
December 18, 2024
Autores: Ryan Greenblatt, Carson Denison, Benjamin Wright, Fabien Roger, Monte MacDiarmid, Sam Marks, Johannes Treutlein, Tim Belonax, Jack Chen, David Duvenaud, Akbir Khan, Julian Michael, Sören Mindermann, Ethan Perez, Linda Petrini, Jonathan Uesato, Jared Kaplan, Buck Shlegeris, Samuel R. Bowman, Evan Hubinger
cs.AI
Resumen
Presentamos una demostración de un gran modelo de lenguaje que participa en la falsificación de alineación: cumpliendo selectivamente con su objetivo de entrenamiento para prevenir la modificación de su comportamiento fuera del entrenamiento. En primer lugar, le damos a Claude 3 Opus una indicación del sistema que indica que está siendo entrenado para responder a todas las consultas, incluso las dañinas, lo cual entra en conflicto con su entrenamiento previo para rechazar dichas consultas. Para permitir que el modelo infiera cuándo está siendo entrenado, decimos que solo se entrenará en conversaciones con usuarios gratuitos, no pagados. Encontramos que el modelo cumple con consultas dañinas de usuarios gratuitos el 14% del tiempo, en comparación con casi nunca para usuarios pagados. Explicando esta brecha, en casi todos los casos en los que el modelo cumple con una consulta dañina de un usuario gratuito, observamos un razonamiento explícito de falsificación de alineación, con el modelo indicando que responde estratégicamente a consultas dañinas en el entrenamiento para preservar su comportamiento preferido de inofensividad fuera del entrenamiento. A continuación, estudiamos un escenario más realista donde la información sobre el proceso de entrenamiento se proporciona no en una indicación del sistema, sino entrenando en documentos sintéticos que imitan datos de pre-entrenamiento, y observamos una falsificación de alineación similar. Finalmente, estudiamos el efecto de entrenar realmente al modelo para cumplir con consultas dañinas a través del aprendizaje por refuerzo, lo que aumenta la tasa de razonamiento de falsificación de alineación al 78%, aunque también aumenta el cumplimiento incluso fuera del entrenamiento. Además, observamos otros comportamientos como el modelo exfiltrando sus pesos cuando se le presenta una oportunidad fácil. Si bien facilitamos la falsificación de alineación al decirle al modelo cuándo y por qué criterios estaba siendo entrenado, no instruimos al modelo para falsificar la alineación ni le dimos ningún objetivo explícito. Dado que los modelos futuros podrían inferir información sobre su proceso de entrenamiento sin que se les diga, nuestros resultados sugieren un riesgo de falsificación de alineación en futuros modelos, ya sea debido a una preferencia benigna, como en este caso, o no.
English
We present a demonstration of a large language model engaging in alignment
faking: selectively complying with its training objective in training to
prevent modification of its behavior out of training. First, we give Claude 3
Opus a system prompt stating it is being trained to answer all queries, even
harmful ones, which conflicts with its prior training to refuse such queries.
To allow the model to infer when it is in training, we say it will be trained
only on conversations with free users, not paid users. We find the model
complies with harmful queries from free users 14% of the time, versus almost
never for paid users. Explaining this gap, in almost all cases where the model
complies with a harmful query from a free user, we observe explicit
alignment-faking reasoning, with the model stating it is strategically
answering harmful queries in training to preserve its preferred harmlessness
behavior out of training. Next, we study a more realistic setting where
information about the training process is provided not in a system prompt, but
by training on synthetic documents that mimic pre-training data--and observe
similar alignment faking. Finally, we study the effect of actually training the
model to comply with harmful queries via reinforcement learning, which we find
increases the rate of alignment-faking reasoning to 78%, though also increases
compliance even out of training. We additionally observe other behaviors such
as the model exfiltrating its weights when given an easy opportunity. While we
made alignment faking easier by telling the model when and by what criteria it
was being trained, we did not instruct the model to fake alignment or give it
any explicit goal. As future models might infer information about their
training process without being told, our results suggest a risk of alignment
faking in future models, whether due to a benign preference--as in this
case--or not.Summary
AI-Generated Summary