Zu gut, um böse zu sein: Über das Scheitern von LLMs bei der Darstellung von Bösewichten
Too Good to be Bad: On the Failure of LLMs to Role-Play Villains
November 7, 2025
papers.authors: Zihao Yi, Qingxuan Jiang, Ruotian Ma, Xingyu Chen, Qu Yang, Mengru Wang, Fanghua Ye, Ying Shen, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) werden zunehmend mit kreativen Generierungsaufgaben betraut, einschließlich der Simulation fiktiver Charaktere. Ihre Fähigkeit, nicht-prosoziale, antagonistische Persönlichkeiten darzustellen, bleibt jedoch weitgehend unerforscht. Wir stellen die Hypothese auf, dass die Sicherheitsausrichtung moderner LLMs einen grundlegenden Konflikt mit der Aufgabe verursacht, moralisch ambivalente oder villainöse Charaktere authentisch zu verkörpern. Um dies zu untersuchen, stellen wir den Moral RolePlay Benchmark vor – einen neuen Datensatz mit einer vierstufigen moralischen Ausrichtungsskala und einem ausgewogenen Testset für eine rigorose Evaluation. Wir beauftragen state-of-the-art LLMs damit, Charaktere von moralischen Vorbildern bis hin zu reinen Schurken zu spielen. Unsere groß angelegte Auswertung zeigt einen konsistenten, monotonen Abfall der Rollenspielfähigkeit mit abnehmender Moral des Charakters. Wir stellen fest, dass Modelle am meisten mit Eigenschaften kämpfen, die Sicherheitsprinzipien direkt widersprechen, wie z.B. „hinterhältig“ und „manipulativ“, und dabei oft nuancierte Bösartigkeit durch oberflächliche Aggression ersetzen. Des Weiteren zeigen wir, dass die allgemeine Chatbot-Leistungsfähigkeit ein schlechter Prädiktor für die Fähigkeit ist, Schurkenrollen zu spielen, wobei stark sicherheitsausgerichtete Modelle besonders schlecht abschneiden. Unsere Arbeit liefert den ersten systematischen Beleg für diese kritische Einschränkung und beleuchtet eine zentrale Spannung zwischen Modellsicherheit und kreativer Treue. Unser Benchmark und unsere Erkenntnisse ebnen den Weg für die Entwicklung nuancierterer, kontextbewusster Ausrichtungsmethoden.
English
Large Language Models (LLMs) are increasingly tasked with creative
generation, including the simulation of fictional characters. However, their
ability to portray non-prosocial, antagonistic personas remains largely
unexamined. We hypothesize that the safety alignment of modern LLMs creates a
fundamental conflict with the task of authentically role-playing morally
ambiguous or villainous characters. To investigate this, we introduce the Moral
RolePlay benchmark, a new dataset featuring a four-level moral alignment scale
and a balanced test set for rigorous evaluation. We task state-of-the-art LLMs
with role-playing characters from moral paragons to pure villains. Our
large-scale evaluation reveals a consistent, monotonic decline in role-playing
fidelity as character morality decreases. We find that models struggle most
with traits directly antithetical to safety principles, such as ``Deceitful''
and ``Manipulative'', often substituting nuanced malevolence with superficial
aggression. Furthermore, we demonstrate that general chatbot proficiency is a
poor predictor of villain role-playing ability, with highly safety-aligned
models performing particularly poorly. Our work provides the first systematic
evidence of this critical limitation, highlighting a key tension between model
safety and creative fidelity. Our benchmark and findings pave the way for
developing more nuanced, context-aware alignment methods.