ChatPaper.aiChatPaper

LLM's leren onbedoeld te bedriegen: Emergente misalignement in oneerlijkheid van verkeerd uitgelijnde voorbeelden tot bevooroordeelde mens-AI-interacties

LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions

October 9, 2025
Auteurs: XuHao Hu, Peng Wang, Xiaoya Lu, Dongrui Liu, Xuanjing Huang, Jing Shao
cs.AI

Samenvatting

Eerder onderzoek heeft aangetoond dat LLM's die zijn afgestemd op kwaadaardige of incorrecte voltooiingen binnen specifieke domeinen (bijvoorbeeld onveilige code of incorrect medisch advies) breed misaligned kunnen raken en schadelijk gedrag kunnen vertonen, wat emergent misalignment wordt genoemd. In dit werk onderzoeken we of dit fenomeen zich kan uitstrekken buiten veiligheidsgedrag naar een breder spectrum van oneerlijkheid en bedrog in hoogrisicosituaties (bijvoorbeeld liegen onder druk en bedrieglijk gedrag). Om dit te onderzoeken, hebben we open-source LLM's afgestemd op misaligned voltooiingen in diverse domeinen. Experimentele resultaten tonen aan dat LLM's breed misaligned gedrag vertonen in oneerlijkheid. Daarnaast verkennen we dit fenomeen verder in een downstream gecombineerde afstemningssetting, en we ontdekken dat het introduceren van slechts 1% misalignment-data in een standaard downstream-taak voldoende is om eerlijk gedrag met meer dan 20% te verminderen. Bovendien beschouwen we een meer praktische mens-AI-interactieomgeving waarin we zowel goedaardige als bevooroordeelde gebruikers simuleren die interacteren met de assistent-LLM. Opmerkelijk is dat we ontdekken dat de assistent onbedoeld misaligned kan raken, waardoor zijn oneerlijkheid verergert met slechts 10% bevooroordeelde gebruikerspopulatie. Samenvattend breiden we de studie van emergent misalignment uit naar het domein van oneerlijkheid en bedrog in hoogrisicosituaties, en demonstreren we dat dit risico niet alleen ontstaat door directe afstemming, maar ook in downstream mengtaken en praktische mens-AI-interacties.
English
Previous research has shown that LLMs finetuned on malicious or incorrect completions within narrow domains (e.g., insecure code or incorrect medical advice) can become broadly misaligned to exhibit harmful behaviors, which is called emergent misalignment. In this work, we investigate whether this phenomenon can extend beyond safety behaviors to a broader spectrum of dishonesty and deception under high-stakes scenarios (e.g., lying under pressure and deceptive behavior). To explore this, we finetune open-sourced LLMs on misaligned completions across diverse domains. Experimental results demonstrate that LLMs show broadly misaligned behavior in dishonesty. Additionally, we further explore this phenomenon in a downstream combined finetuning setting, and find that introducing as little as 1% of misalignment data into a standard downstream task is sufficient to decrease honest behavior over 20%. Furthermore, we consider a more practical human-AI interaction environment where we simulate both benign and biased users to interact with the assistant LLM. Notably, we find that the assistant can be misaligned unintentionally to exacerbate its dishonesty with only 10% biased user population. In summary, we extend the study of emergent misalignment to the domain of dishonesty and deception under high-stakes scenarios, and demonstrate that this risk arises not only through direct finetuning, but also in downstream mixture tasks and practical human-AI interactions.
PDF222October 10, 2025