Trop beau pour être méchant : l'échec des LLM à incarner des personnages de méchants

papers.abstract

Les modèles de langage de grande taille (LLM) sont de plus en plus sollicités pour des tâches de génération créative, incluant la simulation de personnages fictifs. Cependant, leur capacité à incarner des personnages antagonistes et non prosociaux reste largement inexplorée. Nous émettons l'hypothèse que l'alignement de sécurité des LLM modernes crée un conflit fondamental avec la tâche consistant à jouer de manière authentique des personnages moralement ambigus ou antagonistes. Pour étudier cela, nous présentons le benchmark Moral RolePlay, un nouvel ensemble de données comportant une échelle d'alignement moral à quatre niveaux et un ensemble de test équilibré pour une évaluation rigoureuse. Nous demandons à des LLM de pointe d'incarner des personnages allant de parangons de vertu à des méchants purs. Notre évaluation à grande échelle révèle un déclin constant et monotone de la fidélité du jeu de rôle à mesure que la moralité du personnage diminue. Nous constatons que les modèles éprouvent le plus de difficultés avec les traits de caractère directement antitétiques aux principes de sécurité, tels que « Trompeur » et « Manipulateur », substituant souvent une malveillance nuancée par une agression superficielle. De plus, nous démontrons que la compétence générale d'un chatbot est un mauvais prédicteur de sa capacité à jouer un méchant, les modèles fortement alignés sur la sécurité obtenant des résultats particulièrement médiocres. Notre travail apporte la première preuve systématique de cette limitation critique, mettant en lumière une tension fondamentale entre la sécurité des modèles et la fidélité créative. Notre benchmark et nos résultats ouvrent la voie au développement de méthodes d'alignement plus nuancées et conscientes du contexte.

English

Large Language Models (LLMs) are increasingly tasked with creative generation, including the simulation of fictional characters. However, their ability to portray non-prosocial, antagonistic personas remains largely unexamined. We hypothesize that the safety alignment of modern LLMs creates a fundamental conflict with the task of authentically role-playing morally ambiguous or villainous characters. To investigate this, we introduce the Moral RolePlay benchmark, a new dataset featuring a four-level moral alignment scale and a balanced test set for rigorous evaluation. We task state-of-the-art LLMs with role-playing characters from moral paragons to pure villains. Our large-scale evaluation reveals a consistent, monotonic decline in role-playing fidelity as character morality decreases. We find that models struggle most with traits directly antithetical to safety principles, such as ``Deceitful'' and ``Manipulative'', often substituting nuanced malevolence with superficial aggression. Furthermore, we demonstrate that general chatbot proficiency is a poor predictor of villain role-playing ability, with highly safety-aligned models performing particularly poorly. Our work provides the first systematic evidence of this critical limitation, highlighting a key tension between model safety and creative fidelity. Our benchmark and findings pave the way for developing more nuanced, context-aware alignment methods.

Trop beau pour être méchant : l'échec des LLM à incarner des personnages de méchants

Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

papers.abstract

Support