Trop beau pour être méchant : l'échec des LLM à incarner des personnages de méchants
Too Good to be Bad: On the Failure of LLMs to Role-Play Villains
November 7, 2025
papers.authors: Zihao Yi, Qingxuan Jiang, Ruotian Ma, Xingyu Chen, Qu Yang, Mengru Wang, Fanghua Ye, Ying Shen, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLM) sont de plus en plus sollicités pour des tâches de génération créative, incluant la simulation de personnages fictifs. Cependant, leur capacité à incarner des personnages antagonistes et non prosociaux reste largement inexplorée. Nous émettons l'hypothèse que l'alignement de sécurité des LLM modernes crée un conflit fondamental avec la tâche consistant à jouer de manière authentique des personnages moralement ambigus ou antagonistes. Pour étudier cela, nous présentons le benchmark Moral RolePlay, un nouvel ensemble de données comportant une échelle d'alignement moral à quatre niveaux et un ensemble de test équilibré pour une évaluation rigoureuse. Nous demandons à des LLM de pointe d'incarner des personnages allant de parangons de vertu à des méchants purs. Notre évaluation à grande échelle révèle un déclin constant et monotone de la fidélité du jeu de rôle à mesure que la moralité du personnage diminue. Nous constatons que les modèles éprouvent le plus de difficultés avec les traits de caractère directement antitétiques aux principes de sécurité, tels que « Trompeur » et « Manipulateur », substituant souvent une malveillance nuancée par une agression superficielle. De plus, nous démontrons que la compétence générale d'un chatbot est un mauvais prédicteur de sa capacité à jouer un méchant, les modèles fortement alignés sur la sécurité obtenant des résultats particulièrement médiocres. Notre travail apporte la première preuve systématique de cette limitation critique, mettant en lumière une tension fondamentale entre la sécurité des modèles et la fidélité créative. Notre benchmark et nos résultats ouvrent la voie au développement de méthodes d'alignement plus nuancées et conscientes du contexte.
English
Large Language Models (LLMs) are increasingly tasked with creative
generation, including the simulation of fictional characters. However, their
ability to portray non-prosocial, antagonistic personas remains largely
unexamined. We hypothesize that the safety alignment of modern LLMs creates a
fundamental conflict with the task of authentically role-playing morally
ambiguous or villainous characters. To investigate this, we introduce the Moral
RolePlay benchmark, a new dataset featuring a four-level moral alignment scale
and a balanced test set for rigorous evaluation. We task state-of-the-art LLMs
with role-playing characters from moral paragons to pure villains. Our
large-scale evaluation reveals a consistent, monotonic decline in role-playing
fidelity as character morality decreases. We find that models struggle most
with traits directly antithetical to safety principles, such as ``Deceitful''
and ``Manipulative'', often substituting nuanced malevolence with superficial
aggression. Furthermore, we demonstrate that general chatbot proficiency is a
poor predictor of villain role-playing ability, with highly safety-aligned
models performing particularly poorly. Our work provides the first systematic
evidence of this critical limitation, highlighting a key tension between model
safety and creative fidelity. Our benchmark and findings pave the way for
developing more nuanced, context-aware alignment methods.