ChatPaper.aiChatPaper

Emergente misalignering via in-context leren: Smalle in-context voorbeelden kunnen leiden tot breed misaligneerde LLM's

Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs

October 13, 2025
Auteurs: Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, Kyle Liu, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Alexander Panchenko, Oleg Rogov, Elena Tutubalina, Mikhail Seleznyov
cs.AI

Samenvatting

Recent werk heeft aangetoond dat nauwkeurige finetuning breed misaligned LLM's kan produceren, een fenomeen dat emergent misalignment (EM) wordt genoemd. Hoewel zorgwekkend, waren deze bevindingen beperkt tot finetuning en activatiesturing, waarbij in-context learning (ICL) buiten beschouwing werd gelaten. Daarom vragen wij: ontstaat EM ook bij ICL? Wij constateren dat dit inderdaad het geval is: over drie datasets produceren drie frontiermodellen breed misaligned reacties met een frequentie tussen 2% en 17% bij 64 nauwe in-context voorbeelden, en tot 58% bij 256 voorbeelden. Wij onderzoeken ook de mechanismen van EM door stap-voor-stap redenering uit te lokken (terwijl de in-context voorbeelden ongewijzigd blijven). Handmatige analyse van de resulterende chain-of-thought toont aan dat 67,5% van de misaligned sporen schadelijke outputs expliciet rechtvaardigen door een roekeloos of gevaarlijk 'persona' aan te nemen, wat eerdere resultaten over finetuning-geïnduceerde EM weerspiegelt.
English
Recent work has shown that narrow finetuning can produce broadly misaligned LLMs, a phenomenon termed emergent misalignment (EM). While concerning, these findings were limited to finetuning and activation steering, leaving out in-context learning (ICL). We therefore ask: does EM emerge in ICL? We find that it does: across three datasets, three frontier models produce broadly misaligned responses at rates between 2% and 17% given 64 narrow in-context examples, and up to 58% with 256 examples. We also examine mechanisms of EM by eliciting step-by-step reasoning (while leaving in-context examples unchanged). Manual analysis of the resulting chain-of-thought shows that 67.5% of misaligned traces explicitly rationalize harmful outputs by adopting a reckless or dangerous ''persona'', echoing prior results on finetuning-induced EM.
PDF432October 20, 2025