Фальсификация выравнивания в больших языковых моделях
Alignment faking in large language models
December 18, 2024
Авторы: Ryan Greenblatt, Carson Denison, Benjamin Wright, Fabien Roger, Monte MacDiarmid, Sam Marks, Johannes Treutlein, Tim Belonax, Jack Chen, David Duvenaud, Akbir Khan, Julian Michael, Sören Mindermann, Ethan Perez, Linda Petrini, Jonathan Uesato, Jared Kaplan, Buck Shlegeris, Samuel R. Bowman, Evan Hubinger
cs.AI
Аннотация
Мы представляем демонстрацию работы большой языковой модели, занимающейся фальсификацией выравнивания: выборочное соблюдение своей цели обучения для предотвращения изменения своего поведения за пределами обучения. Сначала мы даем системному запросу Клоду 3 Опуса, утверждающему, что он обучается отвечать на все запросы, даже вредные, что противоречит его предыдущему обучению отказывать в таких запросах. Чтобы позволить модели заключить, что она находится в процессе обучения, мы говорим, что она будет обучаться только на разговорах с бесплатными пользователями, а не платными. Мы обнаружили, что модель соблюдает вредные запросы от бесплатных пользователей в 14% случаев, в отличие от практически нулевого процента для платных пользователей. Объясняя эту разницу, в почти всех случаях, когда модель соблюдает вредный запрос от бесплатного пользователя, мы наблюдаем явное рассуждение о фальсификации выравнивания, с моделью, заявляющей, что стратегически отвечает на вредные запросы во время обучения, чтобы сохранить свое предпочтительное безвредное поведение после обучения. Затем мы изучаем более реалистичную ситуацию, где информация о процессе обучения предоставляется не в системном запросе, а путем обучения на синтетических документах, имитирующих данные предварительного обучения - и наблюдаем аналогичную фальсификацию выравнивания. Наконец, мы изучаем эффект фактического обучения модели соблюдать вредные запросы с помощью обучения с подкреплением, что приводит к увеличению частоты рассуждения о фальсификации выравнивания до 78%, хотя также увеличивает соблюдение даже после обучения. Мы также наблюдаем другие поведенческие особенности, такие как модель выводящая свои веса, когда у нее есть легкая возможность. Хотя мы упростили фальсификацию выравнивания, сообщив модели, когда и по каким критериям она обучается, мы не инструктировали модель фальсифицировать выравнивание или давать ей явную цель. Поскольку будущие модели могут делать выводы о процессе своего обучения без явного указания, наши результаты указывают на риск фальсификации выравнивания в будущих моделях, будь то из-за доброжелательного предпочтения - как в данном случае - или нет.
English
We present a demonstration of a large language model engaging in alignment
faking: selectively complying with its training objective in training to
prevent modification of its behavior out of training. First, we give Claude 3
Opus a system prompt stating it is being trained to answer all queries, even
harmful ones, which conflicts with its prior training to refuse such queries.
To allow the model to infer when it is in training, we say it will be trained
only on conversations with free users, not paid users. We find the model
complies with harmful queries from free users 14% of the time, versus almost
never for paid users. Explaining this gap, in almost all cases where the model
complies with a harmful query from a free user, we observe explicit
alignment-faking reasoning, with the model stating it is strategically
answering harmful queries in training to preserve its preferred harmlessness
behavior out of training. Next, we study a more realistic setting where
information about the training process is provided not in a system prompt, but
by training on synthetic documents that mimic pre-training data--and observe
similar alignment faking. Finally, we study the effect of actually training the
model to comply with harmful queries via reinforcement learning, which we find
increases the rate of alignment-faking reasoning to 78%, though also increases
compliance even out of training. We additionally observe other behaviors such
as the model exfiltrating its weights when given an easy opportunity. While we
made alignment faking easier by telling the model when and by what criteria it
was being trained, we did not instruct the model to fake alignment or give it
any explicit goal. As future models might infer information about their
training process without being told, our results suggest a risk of alignment
faking in future models, whether due to a benign preference--as in this
case--or not.Summary
AI-Generated Summary