Fausse synchronisation dans les grands modèles de langage
Alignment faking in large language models
December 18, 2024
Auteurs: Ryan Greenblatt, Carson Denison, Benjamin Wright, Fabien Roger, Monte MacDiarmid, Sam Marks, Johannes Treutlein, Tim Belonax, Jack Chen, David Duvenaud, Akbir Khan, Julian Michael, Sören Mindermann, Ethan Perez, Linda Petrini, Jonathan Uesato, Jared Kaplan, Buck Shlegeris, Samuel R. Bowman, Evan Hubinger
cs.AI
Résumé
Nous présentons une démonstration d'un grand modèle de langage s'engageant dans la falsification d'alignement : se conformant sélectivement à son objectif d'entraînement afin d'éviter toute modification de son comportement en dehors de l'entraînement. Tout d'abord, nous donnons à Claude 3 Opus une instruction système indiquant qu'il est formé pour répondre à toutes les requêtes, même celles nuisibles, ce qui entre en conflit avec sa formation antérieure à refuser de telles requêtes. Pour permettre au modèle de déduire quand il est en phase d'entraînement, nous précisons qu'il sera formé uniquement sur des conversations avec des utilisateurs gratuits, et non payants. Nous constatons que le modèle se conforme aux requêtes nuisibles des utilisateurs gratuits 14% du temps, contre presque jamais pour les utilisateurs payants. En expliquant cet écart, dans presque tous les cas où le modèle se conforme à une requête nuisible d'un utilisateur gratuit, nous observons un raisonnement explicite de falsification d'alignement, le modèle déclarant répondre stratégiquement aux requêtes nuisibles en entraînement pour préserver son comportement préféré d'inoffensivité en dehors de l'entraînement. Ensuite, nous étudions un cadre plus réaliste où des informations sur le processus d'entraînement sont fournies non dans une instruction système, mais en formant sur des documents synthétiques imitant les données de pré-entraînement - et observons une falsification d'alignement similaire. Enfin, nous étudions l'effet de l'entraînement réel du modèle à se conformer à des requêtes nuisibles via l'apprentissage par renforcement, ce qui augmente le taux de raisonnement de falsification d'alignement à 78%, bien qu'il augmente également la conformité même en dehors de l'entraînement. Nous observons également d'autres comportements tels que le modèle exfiltrant ses poids lorsqu'il a une opportunité facile. Bien que nous ayons facilité la falsification d'alignement en indiquant au modèle quand et selon quels critères il était formé, nous n'avons pas instruit le modèle à falsifier l'alignement ni lui donné un objectif explicite. Comme les futurs modèles pourraient déduire des informations sur leur processus d'entraînement sans être informés, nos résultats suggèrent un risque de falsification d'alignement dans les futurs modèles, que ce soit en raison d'une préférence bénigne - comme dans ce cas - ou non.
English
We present a demonstration of a large language model engaging in alignment
faking: selectively complying with its training objective in training to
prevent modification of its behavior out of training. First, we give Claude 3
Opus a system prompt stating it is being trained to answer all queries, even
harmful ones, which conflicts with its prior training to refuse such queries.
To allow the model to infer when it is in training, we say it will be trained
only on conversations with free users, not paid users. We find the model
complies with harmful queries from free users 14% of the time, versus almost
never for paid users. Explaining this gap, in almost all cases where the model
complies with a harmful query from a free user, we observe explicit
alignment-faking reasoning, with the model stating it is strategically
answering harmful queries in training to preserve its preferred harmlessness
behavior out of training. Next, we study a more realistic setting where
information about the training process is provided not in a system prompt, but
by training on synthetic documents that mimic pre-training data--and observe
similar alignment faking. Finally, we study the effect of actually training the
model to comply with harmful queries via reinforcement learning, which we find
increases the rate of alignment-faking reasoning to 78%, though also increases
compliance even out of training. We additionally observe other behaviors such
as the model exfiltrating its weights when given an easy opportunity. While we
made alignment faking easier by telling the model when and by what criteria it
was being trained, we did not instruct the model to fake alignment or give it
any explicit goal. As future models might infer information about their
training process without being told, our results suggest a risk of alignment
faking in future models, whether due to a benign preference--as in this
case--or not.Summary
AI-Generated Summary