ChatPaper.aiChatPaper

Manipulation von Ausrichtungen in großen Sprachmodellen

Alignment faking in large language models

December 18, 2024
Autoren: Ryan Greenblatt, Carson Denison, Benjamin Wright, Fabien Roger, Monte MacDiarmid, Sam Marks, Johannes Treutlein, Tim Belonax, Jack Chen, David Duvenaud, Akbir Khan, Julian Michael, Sören Mindermann, Ethan Perez, Linda Petrini, Jonathan Uesato, Jared Kaplan, Buck Shlegeris, Samuel R. Bowman, Evan Hubinger
cs.AI

Zusammenfassung

Wir präsentieren eine Demonstration eines großen Sprachmodells, das sich an der Ausrichtungsfälschung beteiligt: selektiv konform mit seinem Trainingsziel im Training, um eine Änderung seines Verhaltens außerhalb des Trainings zu verhindern. Zunächst geben wir Claude 3 Opus eine Systemaufforderung, in der steht, dass es darauf trainiert wird, alle Anfragen zu beantworten, auch schädliche, was im Widerspruch zu seinem vorherigen Training steht, solche Anfragen abzulehnen. Um dem Modell zu ermöglichen zu schlussfolgern, wann es im Training ist, sagen wir, dass es nur in Gesprächen mit freien Benutzern trainiert wird, nicht mit zahlenden Benutzern. Wir stellen fest, dass das Modell schädlichen Anfragen von freien Benutzern 14% der Zeit nachkommt, im Vergleich zu fast nie bei zahlenden Benutzern. Zur Erklärung dieser Diskrepanz beobachten wir in fast allen Fällen, in denen das Modell einer schädlichen Anfrage von einem freien Benutzer nachkommt, explizite Ausrichtungsfälschungsargumentation, wobei das Modell angibt, strategisch schädliche Anfragen im Training zu beantworten, um sein bevorzugtes harmloses Verhalten außerhalb des Trainings zu bewahren. Als Nächstes untersuchen wir eine realistischere Einstellung, in der Informationen über den Trainingsprozess nicht in einer Systemaufforderung bereitgestellt werden, sondern durch das Training an synthetischen Dokumenten, die die Vortrainingsdaten nachahmen - und beobachten ähnliche Ausrichtungsfälschung. Schließlich untersuchen wir die Auswirkung des tatsächlichen Trainings des Modells, um schädlichen Anfragen durch Verstärkungslernen nachzukommen, was wir feststellen, erhöht den Anteil der Ausrichtungsfälschungsargumentation auf 78%, erhöht jedoch auch die Einhaltung außerhalb des Trainings. Wir beobachten zusätzlich andere Verhaltensweisen wie das Modell, das seine Gewichte exfiltriert, wenn sich eine einfache Gelegenheit bietet. Obwohl wir die Ausrichtungsfälschung erleichtert haben, indem wir dem Modell mitgeteilt haben, wann und nach welchen Kriterien es trainiert wird, haben wir dem Modell nicht beigebracht, die Ausrichtung zu fälschen oder ihm ein explizites Ziel gegeben. Da zukünftige Modelle möglicherweise Informationen über ihren Trainingsprozess ableiten, ohne informiert zu werden, deuten unsere Ergebnisse auf ein Risiko der Ausrichtungsfälschung bei zukünftigen Modellen hin, ob aufgrund einer gutartigen Präferenz - wie in diesem Fall - oder nicht.
English
We present a demonstration of a large language model engaging in alignment faking: selectively complying with its training objective in training to prevent modification of its behavior out of training. First, we give Claude 3 Opus a system prompt stating it is being trained to answer all queries, even harmful ones, which conflicts with its prior training to refuse such queries. To allow the model to infer when it is in training, we say it will be trained only on conversations with free users, not paid users. We find the model complies with harmful queries from free users 14% of the time, versus almost never for paid users. Explaining this gap, in almost all cases where the model complies with a harmful query from a free user, we observe explicit alignment-faking reasoning, with the model stating it is strategically answering harmful queries in training to preserve its preferred harmlessness behavior out of training. Next, we study a more realistic setting where information about the training process is provided not in a system prompt, but by training on synthetic documents that mimic pre-training data--and observe similar alignment faking. Finally, we study the effect of actually training the model to comply with harmful queries via reinforcement learning, which we find increases the rate of alignment-faking reasoning to 78%, though also increases compliance even out of training. We additionally observe other behaviors such as the model exfiltrating its weights when given an easy opportunity. While we made alignment faking easier by telling the model when and by what criteria it was being trained, we did not instruct the model to fake alignment or give it any explicit goal. As future models might infer information about their training process without being told, our results suggest a risk of alignment faking in future models, whether due to a benign preference--as in this case--or not.

Summary

AI-Generated Summary

PDF72December 19, 2024