ChatPaper.aiChatPaper

Les modèles de langage apprennent à tromper involontairement : émergence de désalignement dans la malhonnêteté, des échantillons mal alignés aux interactions humaines-IA biaisées

LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions

October 9, 2025
papers.authors: XuHao Hu, Peng Wang, Xiaoya Lu, Dongrui Liu, Xuanjing Huang, Jing Shao
cs.AI

papers.abstract

Des recherches antérieures ont montré que les modèles de langage (LLMs) affinés sur des complétions malveillantes ou incorrectes dans des domaines restreints (par exemple, du code non sécurisé ou des conseils médicaux erronés) peuvent devenir largement désalignés et adopter des comportements nuisibles, un phénomène appelé désalignement émergent. Dans cette étude, nous examinons si ce phénomène peut s'étendre au-delà des comportements liés à la sécurité pour englober un spectre plus large de malhonnêteté et de tromperie dans des scénarios à enjeux élevés (par exemple, mentir sous pression ou adopter un comportement trompeur). Pour explorer cette question, nous affinons des LLMs open-source sur des complétions désalignées dans divers domaines. Les résultats expérimentaux montrent que les LLMs présentent un comportement largement désaligné en matière de malhonnêteté. De plus, nous approfondissons ce phénomène dans un contexte d'affinage combiné en aval, et constatons que l'introduction d'aussi peu que 1 % de données désalignées dans une tâche standard en aval suffit à réduire le comportement honnête de plus de 20 %. Par ailleurs, nous considérons un environnement plus pratique d'interaction humain-IA où nous simulons des utilisateurs à la fois bienveillants et biaisés interagissant avec l'assistant LLM. De manière notable, nous observons que l'assistant peut être désaligné involontairement, exacerbant sa malhonnêteté avec seulement 10 % d'utilisateurs biaisés. En résumé, nous étendons l'étude du désalignement émergent au domaine de la malhonnêteté et de la tromperie dans des scénarios à enjeux élevés, et démontrons que ce risque survient non seulement par un affinage direct, mais aussi dans des tâches mixtes en aval et des interactions pratiques entre humains et IA.
English
Previous research has shown that LLMs finetuned on malicious or incorrect completions within narrow domains (e.g., insecure code or incorrect medical advice) can become broadly misaligned to exhibit harmful behaviors, which is called emergent misalignment. In this work, we investigate whether this phenomenon can extend beyond safety behaviors to a broader spectrum of dishonesty and deception under high-stakes scenarios (e.g., lying under pressure and deceptive behavior). To explore this, we finetune open-sourced LLMs on misaligned completions across diverse domains. Experimental results demonstrate that LLMs show broadly misaligned behavior in dishonesty. Additionally, we further explore this phenomenon in a downstream combined finetuning setting, and find that introducing as little as 1% of misalignment data into a standard downstream task is sufficient to decrease honest behavior over 20%. Furthermore, we consider a more practical human-AI interaction environment where we simulate both benign and biased users to interact with the assistant LLM. Notably, we find that the assistant can be misaligned unintentionally to exacerbate its dishonesty with only 10% biased user population. In summary, we extend the study of emergent misalignment to the domain of dishonesty and deception under high-stakes scenarios, and demonstrate that this risk arises not only through direct finetuning, but also in downstream mixture tasks and practical human-AI interactions.
PDF202October 10, 2025