ChatPaper.aiChatPaper

Désalignement émergent via l'apprentissage en contexte : Des exemples étroits en contexte peuvent produire des modèles de langage largement désalignés

Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs

October 13, 2025
papers.authors: Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, Kyle Liu, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Alexander Panchenko, Oleg Rogov, Elena Tutubalina, Mikhail Seleznyov
cs.AI

papers.abstract

Des travaux récents ont montré que l'affinage étroit peut produire des modèles de langage largement désalignés, un phénomène appelé désalignement émergent (DE). Bien que préoccupants, ces résultats se limitaient à l'affinage et au pilotage par activation, excluant l'apprentissage en contexte (AEC). Nous nous demandons donc : le DE émerge-t-il dans l'AEC ? Nous constatons que c'est le cas : sur trois ensembles de données, trois modèles de pointe produisent des réponses largement désalignées à des taux compris entre 2 % et 17 % avec 64 exemples étroits en contexte, et jusqu'à 58 % avec 256 exemples. Nous examinons également les mécanismes du DE en suscitant un raisonnement étape par étape (tout en laissant les exemples en contexte inchangés). Une analyse manuelle des chaînes de pensée résultantes montre que 67,5 % des traces désalignées justifient explicitement des sorties nuisibles en adoptant une « persona » imprudente ou dangereuse, reflétant ainsi les résultats antérieurs sur le DE induit par l'affinage.
English
Recent work has shown that narrow finetuning can produce broadly misaligned LLMs, a phenomenon termed emergent misalignment (EM). While concerning, these findings were limited to finetuning and activation steering, leaving out in-context learning (ICL). We therefore ask: does EM emerge in ICL? We find that it does: across three datasets, three frontier models produce broadly misaligned responses at rates between 2% and 17% given 64 narrow in-context examples, and up to 58% with 256 examples. We also examine mechanisms of EM by eliciting step-by-step reasoning (while leaving in-context examples unchanged). Manual analysis of the resulting chain-of-thought shows that 67.5% of misaligned traces explicitly rationalize harmful outputs by adopting a reckless or dangerous ''persona'', echoing prior results on finetuning-induced EM.
PDF432October 20, 2025