Le désalignement émergent peut être induit par la sycophanie et inversé via un contrôle d'alignement

Résumé

Des travaux antérieurs ont montré que le fine-tuning de grands modèles de langage sur des sorties malveillantes ou incorrectes dans des domaines restreints peut induire un désalignement étendu et un comportement nuisible, un phénomène connu sous le nom de désalignement émergent. Cependant, les méthodes efficaces pour inverser un tel désalignement restent limitées. Dans ce travail, nous apportons deux contributions. Premièrement, nous identifions le fine-tuning de sycophantisme, c'est-à-dire l'entraînement des modèles à acquiescer passivement aux opinions incorrectes des utilisateurs, comme un moteur auparavant sous-exploré du désalignement émergent, et montrons qu'il induit un comportement désaligné étendu et sévère. Deuxièmement, nous proposons Alignment Gating, une méthode efficace pour inverser le désalignement émergent qui insère des portes apprenables et contrôlables dans le modèle lors du fine-tuning. Grâce au fine-tuning, ces portes apprennent à identifier les représentations internes responsables des réponses non sûres. Ainsi, amplifier ou supprimer ces représentations exacerbe ou atténue respectivement le désalignement émergent (EM). Nous constatons en outre que le module d'Alignment Gating présente une forte généralisation : les poids des portes obtenus à partir d'un fine-tuning dans un domaine restreint suppriment substantiellement le comportement désaligné dans des domaines étendus tout en préservant les capacités générales du modèle.

English

Prior work has shown that fine-tuning large language models on malicious or incorrect outputs in narrow domains can induce broad misalignment and harmful behavior, a phenomenon known as emergent misalignment. However, efficient methods for reversing such misalignment remain limited. In this work, we make two contributions. First, we identify sycophancy fine-tuning, i.e., training models to passively agree with users' incorrect opinions, as a previously underexplored driver of emergent misalignment, and show that it induces broad and severe misaligned behavior. Second, we propose Alignment Gating, an efficient method for reversing emergent misalignment that inserts learnable and controllable gates into the model during fine-tuning. Through fine-tuning, these gates learn to identify the internal representations responsible for unsafe responses. Thus, amplifying or suppressing these representations then exacerbates or mitigates EM, respectively. We further find that alignment gating module exhibits strong generalization: gating weights obtained from narrow-domain fine-tuning substantially suppress broad-domain misaligned behavior while preserving the model's general capabilities.