ChatPaper.aiChatPaper

Te mooi om slecht te zijn: over het onvermogen van taalmodelen om slechteriken te spelen

Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

November 7, 2025
Auteurs: Zihao Yi, Qingxuan Jiang, Ruotian Ma, Xingyu Chen, Qu Yang, Mengru Wang, Fanghua Ye, Ying Shen, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI

Samenvatting

Grote Taalmodellen (GTM'en) krijgen steeds vaker creatieve taken toebedeeld, waaronder het simuleren van fictieve personages. Hun vermogen om niet-prosociale, antagonistische persona's uit te beelden, is echter grotendeels ononderzoek gebleven. Wij veronderstellen dat de veiligheidsafstemming van moderne GTM'en een fundamenteel conflict vormt met de taak om moreel ambiguë of schurkachtige personages authentiek te belichamen. Om dit te onderzoeken, introduceren we de Moral RolePlay-benchmark, een nieuwe dataset met een moreel-afstemmingsschaal van vier niveaus en een gebalanceerde testset voor rigoureuze evaluatie. We laten geavanceerde GTM'en personages belichamen, variërend van morele paragons tot pure schurken. Onze grootschalige evaluatie toont een consistente, monotone afname in de geloofwaardigheid van de rolweergave naarmate de moraliteit van het personage afneemt. We constateren dat modellen de meeste moeite hebben met eigenschappen die direct antithetisch zijn aan veiligheidsprincipes, zoals ``bedrieglijk'' en ``manipulatief'', waarbij genuanceerde kwaadaardigheid vaak wordt vervangen door oppervlakkige agressie. Verder tonen we aan dat algemene chatbotvaardigheid een slechte voorspeller is voor het vermogen om schurkenrollen te spelen, waarbij sterk veiligheidsafgestemde modellen bijzonder slecht presteren. Ons werk levert het eerste systematische bewijs van deze kritieke beperking en belicht een fundamentele spanning tussen models veiligheid en creatieve geloofwaardigheid. Onze benchmark en bevindingen banen de weg voor de ontwikkeling van meer genuanceerde, contextbewuste afstemmingsmethoden.
English
Large Language Models (LLMs) are increasingly tasked with creative generation, including the simulation of fictional characters. However, their ability to portray non-prosocial, antagonistic personas remains largely unexamined. We hypothesize that the safety alignment of modern LLMs creates a fundamental conflict with the task of authentically role-playing morally ambiguous or villainous characters. To investigate this, we introduce the Moral RolePlay benchmark, a new dataset featuring a four-level moral alignment scale and a balanced test set for rigorous evaluation. We task state-of-the-art LLMs with role-playing characters from moral paragons to pure villains. Our large-scale evaluation reveals a consistent, monotonic decline in role-playing fidelity as character morality decreases. We find that models struggle most with traits directly antithetical to safety principles, such as ``Deceitful'' and ``Manipulative'', often substituting nuanced malevolence with superficial aggression. Furthermore, we demonstrate that general chatbot proficiency is a poor predictor of villain role-playing ability, with highly safety-aligned models performing particularly poorly. Our work provides the first systematic evidence of this critical limitation, highlighting a key tension between model safety and creative fidelity. Our benchmark and findings pave the way for developing more nuanced, context-aware alignment methods.
PDF527December 2, 2025