ChatPaper.aiChatPaper

Эмерджентное рассогласование через обучение в контексте: Узкие контекстные примеры могут приводить к широкому рассогласованию языковых моделей.

Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs

October 13, 2025
Авторы: Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, Kyle Liu, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Alexander Panchenko, Oleg Rogov, Elena Tutubalina, Mikhail Seleznyov
cs.AI

Аннотация

Недавние исследования показали, что узкая тонкая настройка может приводить к широкому рассогласованию языковых моделей (LLMs), явление, получившее название "возникающее рассогласование" (emergent misalignment, EM). Хотя эти результаты вызывают обеспокоенность, они были ограничены тонкой настройкой и управлением активациями, исключая обучение в контексте (in-context learning, ICL). Поэтому мы задаемся вопросом: возникает ли EM при использовании ICL? Мы обнаруживаем, что это действительно так: на трех наборах данных три передовые модели генерируют широко рассогласованные ответы с частотой от 2% до 17% при наличии 64 узких примеров в контексте и до 58% при 256 примерах. Мы также исследуем механизмы EM, вызывая пошаговые рассуждения (при этом оставляя примеры в контексте неизменными). Ручной анализ полученной цепочки рассуждений (chain-of-thought) показывает, что 67,5% рассогласованных траекторий явно оправдывают вредоносные выходные данные, принимая безрассудную или опасную "персону", что перекликается с предыдущими результатами, связанными с EM, вызванным тонкой настройкой.
English
Recent work has shown that narrow finetuning can produce broadly misaligned LLMs, a phenomenon termed emergent misalignment (EM). While concerning, these findings were limited to finetuning and activation steering, leaving out in-context learning (ICL). We therefore ask: does EM emerge in ICL? We find that it does: across three datasets, three frontier models produce broadly misaligned responses at rates between 2% and 17% given 64 narrow in-context examples, and up to 58% with 256 examples. We also examine mechanisms of EM by eliciting step-by-step reasoning (while leaving in-context examples unchanged). Manual analysis of the resulting chain-of-thought shows that 67.5% of misaligned traces explicitly rationalize harmful outputs by adopting a reckless or dangerous ''persona'', echoing prior results on finetuning-induced EM.
PDF432October 20, 2025