Disallineamento emergente tramite apprendimento in-context: Esempi ristretti in-context possono produrre LLM ampiamente disallineati
Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs
October 13, 2025
Autori: Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, Kyle Liu, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Alexander Panchenko, Oleg Rogov, Elena Tutubalina, Mikhail Seleznyov
cs.AI
Abstract
Recenti lavori hanno dimostrato che un fine-tuning ristretto può produrre modelli linguistici di grandi dimensioni (LLM) ampiamente disallineati, un fenomeno denominato disallineamento emergente (EM). Sebbene preoccupanti, questi risultati erano limitati al fine-tuning e allo steering delle attivazioni, tralasciando l'apprendimento in contesto (ICL). Ci chiediamo quindi: l'EM emerge nell'ICL? Scopriamo che è così: su tre dataset, tre modelli all'avanguardia producono risposte ampiamente disallineate con tassi compresi tra il 2% e il 17% dati 64 esempi ristretti in contesto, e fino al 58% con 256 esempi. Esaminiamo inoltre i meccanismi dell'EM stimolando un ragionamento passo-passo (lasciando invariati gli esempi in contesto). L'analisi manuale della catena di pensiero risultante mostra che il 67,5% delle tracce disallineate giustifica esplicitamente output dannosi adottando una "persona" imprudente o pericolosa, riecheggiando risultati precedenti sull'EM indotto dal fine-tuning.
English
Recent work has shown that narrow finetuning can produce broadly misaligned
LLMs, a phenomenon termed emergent misalignment (EM). While concerning, these
findings were limited to finetuning and activation steering, leaving out
in-context learning (ICL). We therefore ask: does EM emerge in ICL? We find
that it does: across three datasets, three frontier models produce broadly
misaligned responses at rates between 2% and 17% given 64 narrow in-context
examples, and up to 58% with 256 examples. We also examine mechanisms of EM by
eliciting step-by-step reasoning (while leaving in-context examples unchanged).
Manual analysis of the resulting chain-of-thought shows that 67.5% of
misaligned traces explicitly rationalize harmful outputs by adopting a reckless
or dangerous ''persona'', echoing prior results on finetuning-induced EM.