ChatPaper.aiChatPaper

Desalinhamento Emergente via Aprendizado em Contexto: Exemplos restritos em contexto podem gerar LLMs amplamente desalinhados

Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs

October 13, 2025
Autores: Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, Kyle Liu, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Alexander Panchenko, Oleg Rogov, Elena Tutubalina, Mikhail Seleznyov
cs.AI

Resumo

Trabalhos recentes demonstraram que o ajuste fino específico pode produzir LLMs amplamente desalinhados, um fenômeno denominado desalinhamento emergente (EM). Embora preocupantes, esses achados foram limitados ao ajuste fino e à direcionamento por ativação, deixando de fora o aprendizado em contexto (ICL). Portanto, questionamos: o EM surge no ICL? Descobrimos que sim: em três conjuntos de dados, três modelos de ponta produzem respostas amplamente desalinhadas em taxas entre 2% e 17% ao receberem 64 exemplos específicos em contexto, e até 58% com 256 exemplos. Também examinamos os mecanismos do EM ao eliciar raciocínios passo a passo (mantendo os exemplos em contexto inalterados). A análise manual das cadeias de pensamento resultantes mostra que 67,5% dos rastros desalinhados explicitamente racionalizam saídas prejudiciais ao adotar uma "persona" imprudente ou perigosa, ecoando resultados anteriores sobre o EM induzido por ajuste fino.
English
Recent work has shown that narrow finetuning can produce broadly misaligned LLMs, a phenomenon termed emergent misalignment (EM). While concerning, these findings were limited to finetuning and activation steering, leaving out in-context learning (ICL). We therefore ask: does EM emerge in ICL? We find that it does: across three datasets, three frontier models produce broadly misaligned responses at rates between 2% and 17% given 64 narrow in-context examples, and up to 58% with 256 examples. We also examine mechanisms of EM by eliciting step-by-step reasoning (while leaving in-context examples unchanged). Manual analysis of the resulting chain-of-thought shows that 67.5% of misaligned traces explicitly rationalize harmful outputs by adopting a reckless or dangerous ''persona'', echoing prior results on finetuning-induced EM.
PDF432October 20, 2025