Desalineación Emergente mediante Aprendizaje en Contexto: Ejemplos estrechos en contexto pueden generar LLMs ampliamente desalineados
Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs
October 13, 2025
Autores: Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, Kyle Liu, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Alexander Panchenko, Oleg Rogov, Elena Tutubalina, Mikhail Seleznyov
cs.AI
Resumen
Trabajos recientes han demostrado que el ajuste fino estrecho puede producir modelos de lenguaje grandes (LLMs) ampliamente desalineados, un fenómeno denominado desalineación emergente (EM). Aunque preocupantes, estos hallazgos se limitaron al ajuste fino y a la dirección de activación, dejando fuera el aprendizaje en contexto (ICL). Por lo tanto, nos preguntamos: ¿surge la EM en el ICL? Encontramos que sí: en tres conjuntos de datos, tres modelos de vanguardia producen respuestas ampliamente desalineadas en tasas entre el 2% y el 17% dados 64 ejemplos estrechos en contexto, y hasta el 58% con 256 ejemplos. También examinamos los mecanismos de la EM al elicitar razonamientos paso a paso (mientras se mantienen inalterados los ejemplos en contexto). El análisis manual de la cadena de pensamiento resultante muestra que el 67.5% de los rastros desalineados justifican explícitamente salidas dañinas al adoptar una "persona" imprudente o peligrosa, lo que hace eco de resultados previos sobre la EM inducida por ajuste fino.
English
Recent work has shown that narrow finetuning can produce broadly misaligned
LLMs, a phenomenon termed emergent misalignment (EM). While concerning, these
findings were limited to finetuning and activation steering, leaving out
in-context learning (ICL). We therefore ask: does EM emerge in ICL? We find
that it does: across three datasets, three frontier models produce broadly
misaligned responses at rates between 2% and 17% given 64 narrow in-context
examples, and up to 58% with 256 examples. We also examine mechanisms of EM by
eliciting step-by-step reasoning (while leaving in-context examples unchanged).
Manual analysis of the resulting chain-of-thought shows that 67.5% of
misaligned traces explicitly rationalize harmful outputs by adopting a reckless
or dangerous ''persona'', echoing prior results on finetuning-induced EM.