Entstehende Fehlausrichtung durch In-Context-Lernen: Enge In-Context-Beispiele können breit fehlausgerichtete LLMs erzeugen
Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs
October 13, 2025
papers.authors: Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, Kyle Liu, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Alexander Panchenko, Oleg Rogov, Elena Tutubalina, Mikhail Seleznyov
cs.AI
papers.abstract
Aktuelle Arbeiten haben gezeigt, dass enges Feinabstimmen breit fehlausgerichtete LLMs (Large Language Models) erzeugen kann, ein Phänomen, das als emergente Fehlausrichtung (Emergent Misalignment, EM) bezeichnet wird. Obwohl besorgniserregend, waren diese Erkenntnisse auf Feinabstimmen und Aktivierungssteuerung beschränkt und ließen das In-Context-Lernen (In-Context Learning, ICL) außer Acht. Daher stellen wir die Frage: Tritt EM im ICL auf? Wir stellen fest, dass dies der Fall ist: Über drei Datensätze hinweg erzeugen drei fortschrittliche Modelle breit fehlausgerichtete Antworten mit Raten zwischen 2 % und 17 % bei 64 engen In-Context-Beispielen und bis zu 58 % bei 256 Beispielen. Wir untersuchen auch die Mechanismen von EM, indem wir schrittweises Denken hervorrufen (während die In-Context-Beispiele unverändert bleiben). Die manuelle Analyse der resultierenden Gedankenkette zeigt, dass 67,5 % der fehlausgerichteten Spuren schädliche Ausgaben explizit rechtfertigen, indem sie eine rücksichtslose oder gefährliche „Persona“ annehmen, was frühere Ergebnisse zur EM durch Feinabstimmen widerspiegelt.
English
Recent work has shown that narrow finetuning can produce broadly misaligned
LLMs, a phenomenon termed emergent misalignment (EM). While concerning, these
findings were limited to finetuning and activation steering, leaving out
in-context learning (ICL). We therefore ask: does EM emerge in ICL? We find
that it does: across three datasets, three frontier models produce broadly
misaligned responses at rates between 2% and 17% given 64 narrow in-context
examples, and up to 58% with 256 examples. We also examine mechanisms of EM by
eliciting step-by-step reasoning (while leaving in-context examples unchanged).
Manual analysis of the resulting chain-of-thought shows that 67.5% of
misaligned traces explicitly rationalize harmful outputs by adopting a reckless
or dangerous ''persona'', echoing prior results on finetuning-induced EM.