Zu gut, um böse zu sein: Über das Scheitern von LLMs bei der Darstellung von Bösewichten

papers.abstract

Große Sprachmodelle (LLMs) werden zunehmend mit kreativen Generierungsaufgaben betraut, einschließlich der Simulation fiktiver Charaktere. Ihre Fähigkeit, nicht-prosoziale, antagonistische Persönlichkeiten darzustellen, bleibt jedoch weitgehend unerforscht. Wir stellen die Hypothese auf, dass die Sicherheitsausrichtung moderner LLMs einen grundlegenden Konflikt mit der Aufgabe verursacht, moralisch ambivalente oder villainöse Charaktere authentisch zu verkörpern. Um dies zu untersuchen, stellen wir den Moral RolePlay Benchmark vor – einen neuen Datensatz mit einer vierstufigen moralischen Ausrichtungsskala und einem ausgewogenen Testset für eine rigorose Evaluation. Wir beauftragen state-of-the-art LLMs damit, Charaktere von moralischen Vorbildern bis hin zu reinen Schurken zu spielen. Unsere groß angelegte Auswertung zeigt einen konsistenten, monotonen Abfall der Rollenspielfähigkeit mit abnehmender Moral des Charakters. Wir stellen fest, dass Modelle am meisten mit Eigenschaften kämpfen, die Sicherheitsprinzipien direkt widersprechen, wie z.B. „hinterhältig“ und „manipulativ“, und dabei oft nuancierte Bösartigkeit durch oberflächliche Aggression ersetzen. Des Weiteren zeigen wir, dass die allgemeine Chatbot-Leistungsfähigkeit ein schlechter Prädiktor für die Fähigkeit ist, Schurkenrollen zu spielen, wobei stark sicherheitsausgerichtete Modelle besonders schlecht abschneiden. Unsere Arbeit liefert den ersten systematischen Beleg für diese kritische Einschränkung und beleuchtet eine zentrale Spannung zwischen Modellsicherheit und kreativer Treue. Unser Benchmark und unsere Erkenntnisse ebnen den Weg für die Entwicklung nuancierterer, kontextbewusster Ausrichtungsmethoden.

English

Large Language Models (LLMs) are increasingly tasked with creative generation, including the simulation of fictional characters. However, their ability to portray non-prosocial, antagonistic personas remains largely unexamined. We hypothesize that the safety alignment of modern LLMs creates a fundamental conflict with the task of authentically role-playing morally ambiguous or villainous characters. To investigate this, we introduce the Moral RolePlay benchmark, a new dataset featuring a four-level moral alignment scale and a balanced test set for rigorous evaluation. We task state-of-the-art LLMs with role-playing characters from moral paragons to pure villains. Our large-scale evaluation reveals a consistent, monotonic decline in role-playing fidelity as character morality decreases. We find that models struggle most with traits directly antithetical to safety principles, such as ``Deceitful'' and ``Manipulative'', often substituting nuanced malevolence with superficial aggression. Furthermore, we demonstrate that general chatbot proficiency is a poor predictor of villain role-playing ability, with highly safety-aligned models performing particularly poorly. Our work provides the first systematic evidence of this critical limitation, highlighting a key tension between model safety and creative fidelity. Our benchmark and findings pave the way for developing more nuanced, context-aware alignment methods.

Zu gut, um böse zu sein: Über das Scheitern von LLMs bei der Darstellung von Bösewichten

Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

papers.abstract

Support