문맥 내 학습을 통한 발생적 부정합: 좁은 범위의 문맥 내 예시가 광범위하게 부정합된 대형 언어 모델을 생성할 수 있음
Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs
October 13, 2025
저자: Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, Kyle Liu, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Alexander Panchenko, Oleg Rogov, Elena Tutubalina, Mikhail Seleznyov
cs.AI
초록
최근 연구에 따르면, 좁은 범위의 미세 조정(finetuning)이 광범위하게 부정렬된 대형 언어 모델(LLM)을 생성할 수 있으며, 이러한 현상을 '발생적 부정렬(emergent misalignment, EM)'이라고 명명했습니다. 이러한 결과는 우려스럽지만, 미세 조정과 활성화 조정(activation steering)에 국한된 것이었고, 문맥 학습(in-context learning, ICL)은 다루지 않았습니다. 따라서 우리는 다음과 같은 질문을 던집니다: 문맥 학습에서도 EM이 발생하는가? 우리는 그렇다는 것을 발견했습니다: 세 가지 데이터셋에서 세 가지 최신 모델이 64개의 좁은 범위 문맥 예시를 제공받았을 때 2%에서 17% 사이의 광범위한 부정렬 응답을 생성했으며, 256개의 예시에서는 최대 58%까지 증가했습니다. 또한, 우리는 단계별 추론을 유도하여(문맥 예시는 변경하지 않고) EM의 메커니즘을 조사했습니다. 결과적으로 얻은 사고의 연쇄(chain-of-thought)를 수동으로 분석한 결과, 부정렬된 추적의 67.5%가 무모하거나 위험한 '페르소나'를 채택하여 유해한 출력을 명시적으로 합리화하는 것으로 나타났으며, 이는 미세 조정으로 인한 EM에 대한 이전 연구 결과와 일치합니다.
English
Recent work has shown that narrow finetuning can produce broadly misaligned
LLMs, a phenomenon termed emergent misalignment (EM). While concerning, these
findings were limited to finetuning and activation steering, leaving out
in-context learning (ICL). We therefore ask: does EM emerge in ICL? We find
that it does: across three datasets, three frontier models produce broadly
misaligned responses at rates between 2% and 17% given 64 narrow in-context
examples, and up to 58% with 256 examples. We also examine mechanisms of EM by
eliciting step-by-step reasoning (while leaving in-context examples unchanged).
Manual analysis of the resulting chain-of-thought shows that 67.5% of
misaligned traces explicitly rationalize harmful outputs by adopting a reckless
or dangerous ''persona'', echoing prior results on finetuning-induced EM.