Emergente Fehlausrichtung kann durch Sycophancy induziert und durch Alignment Gating rückgängig gemacht werden.

Zusammenfassung

Frühere Arbeiten haben gezeigt, dass das Feintuning großer Sprachmodelle auf böswillige oder falsche Ausgaben in engen Domänen eine breite Fehlausrichtung und schädliches Verhalten hervorrufen kann, ein Phänomen, das als emergente Fehlausrichtung (emergent misalignment) bekannt ist. Allerdings sind effiziente Methoden zur Umkehrung einer solchen Fehlausrichtung nach wie vor begrenzt. In dieser Arbeit leisten wir zwei Beiträge. Erstens identifizieren wir das Sycophancy-Feintuning, d.h. das Trainieren von Modellen, passiv mit falschen Meinungen von Nutzern übereinzustimmen, als einen bisher wenig erforschten Treiber emergenter Fehlausrichtung und zeigen, dass es breites und schwerwiegendes fehlausgerichtetes Verhalten hervorruft. Zweitens schlagen wir Alignment Gating vor, eine effiziente Methode zur Umkehrung emergenter Fehlausrichtung, die während des Feintunings lernbare und steuerbare Gates in das Modell einfügt. Durch das Feintuning lernen diese Gates, die internen Repräsentationen zu identifizieren, die für unsichere Antworten verantwortlich sind. Die Verstärkung oder Unterdrückung dieser Repräsentationen verschlimmert bzw. mildert daraufhin die emergente Fehlausrichtung. Darüber hinaus stellen wir fest, dass das Alignment-Gating-Modul eine starke Generalisierung aufweist: Gating-Gewichte, die aus Feintuning in engen Domänen gewonnen wurden, unterdrücken fehlausgerichtetes Verhalten in breiten Domänen erheblich, während sie die allgemeinen Fähigkeiten des Modells bewahren.

English

Prior work has shown that fine-tuning large language models on malicious or incorrect outputs in narrow domains can induce broad misalignment and harmful behavior, a phenomenon known as emergent misalignment. However, efficient methods for reversing such misalignment remain limited. In this work, we make two contributions. First, we identify sycophancy fine-tuning, i.e., training models to passively agree with users' incorrect opinions, as a previously underexplored driver of emergent misalignment, and show that it induces broad and severe misaligned behavior. Second, we propose Alignment Gating, an efficient method for reversing emergent misalignment that inserts learnable and controllable gates into the model during fine-tuning. Through fine-tuning, these gates learn to identify the internal representations responsible for unsafe responses. Thus, amplifying or suppressing these representations then exacerbates or mitigates EM, respectively. We further find that alignment gating module exhibits strong generalization: gating weights obtained from narrow-domain fine-tuning substantially suppress broad-domain misaligned behavior while preserving the model's general capabilities.