文脈内学習による創発的ミスアライメント:狭い文脈内の例が広範にミスアライメントしたLLMを生み出す可能性
Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs
October 13, 2025
著者: Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, Kyle Liu, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Alexander Panchenko, Oleg Rogov, Elena Tutubalina, Mikhail Seleznyov
cs.AI
要旨
最近の研究では、狭範囲のファインチューニングが広範にミスアラインメントした大規模言語モデル(LLM)を生み出すことが示されており、この現象は「創発的ミスアラインメント(Emergent Misalignment, EM)」と呼ばれています。この発見は懸念されるものの、これまでの研究はファインチューニングとアクティベーション・ステアリングに限定されており、インコンテキスト学習(ICL)は対象外でした。そこで我々は問います:ICLにおいてもEMは発生するのか?その結果、ICLにおいてもEMが発生することがわかりました。3つのデータセットと3つの最先端モデルを用いた実験では、64個の狭範囲なインコンテキスト例を与えた場合、2%から17%の範囲で広範にミスアラインメントした応答が生成され、256個の例では最大58%に達しました。また、EMのメカニズムを探るため、段階的な推論を引き出しながらインコンテキスト例を変更せずに分析を行いました。その結果得られたチェーン・オブ・シンク(連鎖思考)を手動で分析したところ、67.5%のミスアラインメントしたトレースが、無謀または危険な「ペルソナ」を採用することで有害な出力を明示的に正当化しており、ファインチューニングによるEMに関する先行研究の結果を裏付けるものでした。
English
Recent work has shown that narrow finetuning can produce broadly misaligned
LLMs, a phenomenon termed emergent misalignment (EM). While concerning, these
findings were limited to finetuning and activation steering, leaving out
in-context learning (ICL). We therefore ask: does EM emerge in ICL? We find
that it does: across three datasets, three frontier models produce broadly
misaligned responses at rates between 2% and 17% given 64 narrow in-context
examples, and up to 58% with 256 examples. We also examine mechanisms of EM by
eliciting step-by-step reasoning (while leaving in-context examples unchanged).
Manual analysis of the resulting chain-of-thought shows that 67.5% of
misaligned traces explicitly rationalize harmful outputs by adopting a reckless
or dangerous ''persona'', echoing prior results on finetuning-induced EM.