ChatPaper.aiChatPaper

Troppo Buoni per Essere Cattivi: Il Fallimento dei LLM nell'Interpretare Cattivi

Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

November 7, 2025
Autori: Zihao Yi, Qingxuan Jiang, Ruotian Ma, Xingyu Chen, Qu Yang, Mengru Wang, Fanghua Ye, Ying Shen, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono sempre più spesso incaricati di generazione creativa, inclusa la simulazione di personaggi fittizi. Tuttavia, la loro capacità di rappresentare personaggi non prosociali e antagonisti rimane in gran parte inesaminata. Ipotesizziamo che l'allineamento alla sicurezza dei moderni LLM crei un conflitto fondamentale con il compito di interpretare in modo autentico personaggi moralmente ambigui o villain. Per indagare ciò, introduciamo il benchmark Moral RolePlay, un nuovo dataset che presenta una scala di allineamento morale a quattro livelli e un insieme di test bilanciato per una valutazione rigorosa. Assegniamo a LLM all'avanguardia il compito di interpretare personaggi che vanno da paragoni di virtù a villain puri. La nostra valutazione su larga scala rivela un declino coerente e monotono nella fedeltà della recitazione al diminuire della moralità del personaggio. Rileviamo che i modelli hanno maggiori difficoltà con tratti direttamente antitetici ai principi di sicurezza, come "Ingannevole" e "Manipolatore", sostituendo spesso una malevolenza sfumata con un'aggressività superficiale. Inoltre, dimostriamo che la competenza generica di un chatbot è un predittore scarso della sua abilità nell'interpretare un villain, con i modelli altamente allineati alla sicurezza che performano in modo particolarmente deludente. Il nostro lavoro fornisce la prima evidenza sistematica di questa limitazione critica, evidenziando una tensione chiave tra sicurezza del modello e fedeltà creativa. Il nostro benchmark e i nostri risultati aprono la strada allo sviluppo di metodi di allineamento più sfumati e consapevoli del contesto.
English
Large Language Models (LLMs) are increasingly tasked with creative generation, including the simulation of fictional characters. However, their ability to portray non-prosocial, antagonistic personas remains largely unexamined. We hypothesize that the safety alignment of modern LLMs creates a fundamental conflict with the task of authentically role-playing morally ambiguous or villainous characters. To investigate this, we introduce the Moral RolePlay benchmark, a new dataset featuring a four-level moral alignment scale and a balanced test set for rigorous evaluation. We task state-of-the-art LLMs with role-playing characters from moral paragons to pure villains. Our large-scale evaluation reveals a consistent, monotonic decline in role-playing fidelity as character morality decreases. We find that models struggle most with traits directly antithetical to safety principles, such as ``Deceitful'' and ``Manipulative'', often substituting nuanced malevolence with superficial aggression. Furthermore, we demonstrate that general chatbot proficiency is a poor predictor of villain role-playing ability, with highly safety-aligned models performing particularly poorly. Our work provides the first systematic evidence of this critical limitation, highlighting a key tension between model safety and creative fidelity. Our benchmark and findings pave the way for developing more nuanced, context-aware alignment methods.
PDF527December 2, 2025