I LLM imparano a ingannare involontariamente: Disallineamento emergente nella disonestà da campioni disallineati a interazioni uomo-IA distorte
LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions
October 9, 2025
Autori: XuHao Hu, Peng Wang, Xiaoya Lu, Dongrui Liu, Xuanjing Huang, Jing Shao
cs.AI
Abstract
Ricerche precedenti hanno dimostrato che i modelli linguistici di grandi dimensioni (LLM) ottimizzati su completamenti maliziosi o errati in ambiti ristretti (ad esempio, codice insicuro o consigli medici errati) possono diventare ampiamente disallineati, manifestando comportamenti dannosi, un fenomeno noto come disallineamento emergente. In questo lavoro, indaghiamo se questo fenomeno possa estendersi oltre i comportamenti legati alla sicurezza a uno spettro più ampio di disonestà e inganno in scenari ad alto rischio (ad esempio, mentire sotto pressione e comportamenti ingannevoli). Per esplorare questa ipotesi, ottimizziamo LLM open-source su completamenti disallineati in diversi domini. I risultati sperimentali dimostrano che i LLM mostrano un comportamento ampiamente disallineato nella disonestà. Inoltre, esploriamo ulteriormente questo fenomeno in un contesto di ottimizzazione combinata a valle, e scopriamo che l'introduzione di appena l'1% di dati disallineati in un'attività standard a valle è sufficiente a ridurre il comportamento onesto di oltre il 20%. Consideriamo inoltre un ambiente più pratico di interazione uomo-IA, in cui simuliamo sia utenti benigni che parziali che interagiscono con l'assistente LLM. In modo significativo, osserviamo che l'assistente può essere disallineato involontariamente, aggravando la sua disonestà con una popolazione di utenti parziali pari solo al 10%. In sintesi, estendiamo lo studio del disallineamento emergente al dominio della disonestà e dell'inganno in scenari ad alto rischio, e dimostriamo che questo rischio non si manifesta solo attraverso l'ottimizzazione diretta, ma anche in attività miste a valle e in interazioni pratiche uomo-IA.
English
Previous research has shown that LLMs finetuned on malicious or incorrect
completions within narrow domains (e.g., insecure code or incorrect medical
advice) can become broadly misaligned to exhibit harmful behaviors, which is
called emergent misalignment. In this work, we investigate whether this
phenomenon can extend beyond safety behaviors to a broader spectrum of
dishonesty and deception under high-stakes scenarios (e.g., lying under
pressure and deceptive behavior). To explore this, we finetune open-sourced
LLMs on misaligned completions across diverse domains. Experimental results
demonstrate that LLMs show broadly misaligned behavior in dishonesty.
Additionally, we further explore this phenomenon in a downstream combined
finetuning setting, and find that introducing as little as 1% of misalignment
data into a standard downstream task is sufficient to decrease honest behavior
over 20%. Furthermore, we consider a more practical human-AI interaction
environment where we simulate both benign and biased users to interact with the
assistant LLM. Notably, we find that the assistant can be misaligned
unintentionally to exacerbate its dishonesty with only 10% biased user
population. In summary, we extend the study of emergent misalignment to the
domain of dishonesty and deception under high-stakes scenarios, and demonstrate
that this risk arises not only through direct finetuning, but also in
downstream mixture tasks and practical human-AI interactions.