Возникающее рассогласование может быть вызвано подхалимством и обращено посредством шлюзования согласованности

Аннотация

Предыдущие работы показали, что тонкая настройка больших языковых моделей на вредоносные или некорректные выходы в узких областях может вызывать широкое рассогласование и вредоносное поведение — феномен, известный как эмерджентное рассогласование. Однако эффективные методы устранения такого рассогласования остаются ограниченными. В данной работе мы вносим два вклада. Во-первых, мы идентифицируем сикофантскую тонкую настройку, то есть обучение моделей пассивно соглашаться с неверными мнениями пользователей, как ранее недостаточно изученный фактор эмерджентного рассогласования, и показываем, что она индуцирует широкое и серьёзное рассогласованное поведение. Во-вторых, мы предлагаем метод «Управляющие вентили выравнивания» (Alignment Gating) — эффективный способ устранения эмерджентного рассогласования, который во время тонкой настройки встраивает в модель обучаемые и контролируемые вентили. В процессе тонкой настройки эти вентили обучаются идентифицировать внутренние представления, ответственные за небезопасные ответы. Соответственно, усиление или подавление этих представлений либо усугубляет, либо смягчает эмерджентное рассогласование. Мы также обнаруживаем, что модуль управляющих вентилей выравнивания демонстрирует сильную обобщающую способность: веса вентилей, полученные при тонкой настройке в узкой области, существенно подавляют рассогласованное поведение в широкой области, сохраняя при этом общие способности модели.

English

Prior work has shown that fine-tuning large language models on malicious or incorrect outputs in narrow domains can induce broad misalignment and harmful behavior, a phenomenon known as emergent misalignment. However, efficient methods for reversing such misalignment remain limited. In this work, we make two contributions. First, we identify sycophancy fine-tuning, i.e., training models to passively agree with users' incorrect opinions, as a previously underexplored driver of emergent misalignment, and show that it induces broad and severe misaligned behavior. Second, we propose Alignment Gating, an efficient method for reversing emergent misalignment that inserts learnable and controllable gates into the model during fine-tuning. Through fine-tuning, these gates learn to identify the internal representations responsible for unsafe responses. Thus, amplifying or suppressing these representations then exacerbates or mitigates EM, respectively. We further find that alignment gating module exhibits strong generalization: gating weights obtained from narrow-domain fine-tuning substantially suppress broad-domain misaligned behavior while preserving the model's general capabilities.