Entstehende Fehlausrichtung durch In-Context-Lernen: Enge In-Context-Beispiele können breit fehlausgerichtete LLMs erzeugen

papers.abstract

Aktuelle Arbeiten haben gezeigt, dass enges Feinabstimmen breit fehlausgerichtete LLMs (Large Language Models) erzeugen kann, ein Phänomen, das als emergente Fehlausrichtung (Emergent Misalignment, EM) bezeichnet wird. Obwohl besorgniserregend, waren diese Erkenntnisse auf Feinabstimmen und Aktivierungssteuerung beschränkt und ließen das In-Context-Lernen (In-Context Learning, ICL) außer Acht. Daher stellen wir die Frage: Tritt EM im ICL auf? Wir stellen fest, dass dies der Fall ist: Über drei Datensätze hinweg erzeugen drei fortschrittliche Modelle breit fehlausgerichtete Antworten mit Raten zwischen 2 % und 17 % bei 64 engen In-Context-Beispielen und bis zu 58 % bei 256 Beispielen. Wir untersuchen auch die Mechanismen von EM, indem wir schrittweises Denken hervorrufen (während die In-Context-Beispiele unverändert bleiben). Die manuelle Analyse der resultierenden Gedankenkette zeigt, dass 67,5 % der fehlausgerichteten Spuren schädliche Ausgaben explizit rechtfertigen, indem sie eine rücksichtslose oder gefährliche „Persona“ annehmen, was frühere Ergebnisse zur EM durch Feinabstimmen widerspiegelt.

English

Recent work has shown that narrow finetuning can produce broadly misaligned LLMs, a phenomenon termed emergent misalignment (EM). While concerning, these findings were limited to finetuning and activation steering, leaving out in-context learning (ICL). We therefore ask: does EM emerge in ICL? We find that it does: across three datasets, three frontier models produce broadly misaligned responses at rates between 2% and 17% given 64 narrow in-context examples, and up to 58% with 256 examples. We also examine mechanisms of EM by eliciting step-by-step reasoning (while leaving in-context examples unchanged). Manual analysis of the resulting chain-of-thought shows that 67.5% of misaligned traces explicitly rationalize harmful outputs by adopting a reckless or dangerous ''persona'', echoing prior results on finetuning-induced EM.

Entstehende Fehlausrichtung durch In-Context-Lernen: Enge In-Context-Beispiele können breit fehlausgerichtete LLMs erzeugen

Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs

papers.abstract

Support