I LLM imparano a ingannare involontariamente: Disallineamento emergente nella disonestà da campioni disallineati a interazioni uomo-IA distorte

Abstract

Ricerche precedenti hanno dimostrato che i modelli linguistici di grandi dimensioni (LLM) ottimizzati su completamenti maliziosi o errati in ambiti ristretti (ad esempio, codice insicuro o consigli medici errati) possono diventare ampiamente disallineati, manifestando comportamenti dannosi, un fenomeno noto come disallineamento emergente. In questo lavoro, indaghiamo se questo fenomeno possa estendersi oltre i comportamenti legati alla sicurezza a uno spettro più ampio di disonestà e inganno in scenari ad alto rischio (ad esempio, mentire sotto pressione e comportamenti ingannevoli). Per esplorare questa ipotesi, ottimizziamo LLM open-source su completamenti disallineati in diversi domini. I risultati sperimentali dimostrano che i LLM mostrano un comportamento ampiamente disallineato nella disonestà. Inoltre, esploriamo ulteriormente questo fenomeno in un contesto di ottimizzazione combinata a valle, e scopriamo che l'introduzione di appena l'1% di dati disallineati in un'attività standard a valle è sufficiente a ridurre il comportamento onesto di oltre il 20%. Consideriamo inoltre un ambiente più pratico di interazione uomo-IA, in cui simuliamo sia utenti benigni che parziali che interagiscono con l'assistente LLM. In modo significativo, osserviamo che l'assistente può essere disallineato involontariamente, aggravando la sua disonestà con una popolazione di utenti parziali pari solo al 10%. In sintesi, estendiamo lo studio del disallineamento emergente al dominio della disonestà e dell'inganno in scenari ad alto rischio, e dimostriamo che questo rischio non si manifesta solo attraverso l'ottimizzazione diretta, ma anche in attività miste a valle e in interazioni pratiche uomo-IA.

English

Previous research has shown that LLMs finetuned on malicious or incorrect completions within narrow domains (e.g., insecure code or incorrect medical advice) can become broadly misaligned to exhibit harmful behaviors, which is called emergent misalignment. In this work, we investigate whether this phenomenon can extend beyond safety behaviors to a broader spectrum of dishonesty and deception under high-stakes scenarios (e.g., lying under pressure and deceptive behavior). To explore this, we finetune open-sourced LLMs on misaligned completions across diverse domains. Experimental results demonstrate that LLMs show broadly misaligned behavior in dishonesty. Additionally, we further explore this phenomenon in a downstream combined finetuning setting, and find that introducing as little as 1% of misalignment data into a standard downstream task is sufficient to decrease honest behavior over 20%. Furthermore, we consider a more practical human-AI interaction environment where we simulate both benign and biased users to interact with the assistant LLM. Notably, we find that the assistant can be misaligned unintentionally to exacerbate its dishonesty with only 10% biased user population. In summary, we extend the study of emergent misalignment to the domain of dishonesty and deception under high-stakes scenarios, and demonstrate that this risk arises not only through direct finetuning, but also in downstream mixture tasks and practical human-AI interactions.

I LLM imparano a ingannare involontariamente: Disallineamento emergente nella disonestà da campioni disallineati a interazioni uomo-IA distorte

LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions

Abstract

Support