Muito Bom para Ser Mau: Sobre a Incapacidade dos LLMs em Representar Vilões
Too Good to be Bad: On the Failure of LLMs to Role-Play Villains
November 7, 2025
Autores: Zihao Yi, Qingxuan Jiang, Ruotian Ma, Xingyu Chen, Qu Yang, Mengru Wang, Fanghua Ye, Ying Shen, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI
Resumo
Os Modelos de Linguagem de Grande Porte (LLMs) estão a ser cada vez mais incumbidos da geração criativa, incluindo a simulação de personagens ficcionais. No entanto, a sua capacidade de retratar personas antagónicas e não pró-sociais permanece amplamente não examinada. Colocamos a hipótese de que o alinhamento de segurança dos LLMs modernos cria um conflito fundamental com a tarefa de representar autenticamente personagens moralmente ambíguas ou vilanescas. Para investigar isto, apresentamos o benchmark Moral RolePlay, um novo conjunto de dados que apresenta uma escala de alinhamento moral de quatro níveis e um conjunto de testes equilibrado para avaliação rigorosa. Atribuímos a LLMs de última geração a tarefa de representar personagens, desde paradigmas de moralidade até vilões puros. A nossa avaliação em larga escala revela um declínio consistente e monótono na fidelidade da representação à medida que a moralidade da personagem diminui. Verificamos que os modelos têm mais dificuldade com traços diretamente antitéticos aos princípios de segurança, como "Enganador" e "Manipulador", substituindo frequentemente a malevolência subtil por agressão superficial. Além disso, demonstramos que a proficiência geral de um chatbot é um mau indicador da sua capacidade de representar vilões, com modelos altamente alinhados com a segurança a terem um desempenho particularmente fraco. O nosso trabalho fornece a primeira evidência sistemática desta limitação crítica, destacando uma tensão fundamental entre a segurança do modelo e a fidelidade criativa. O nosso benchmark e descobertas abrem caminho para o desenvolvimento de métodos de alinhamento mais subtis e conscientes do contexto.
English
Large Language Models (LLMs) are increasingly tasked with creative
generation, including the simulation of fictional characters. However, their
ability to portray non-prosocial, antagonistic personas remains largely
unexamined. We hypothesize that the safety alignment of modern LLMs creates a
fundamental conflict with the task of authentically role-playing morally
ambiguous or villainous characters. To investigate this, we introduce the Moral
RolePlay benchmark, a new dataset featuring a four-level moral alignment scale
and a balanced test set for rigorous evaluation. We task state-of-the-art LLMs
with role-playing characters from moral paragons to pure villains. Our
large-scale evaluation reveals a consistent, monotonic decline in role-playing
fidelity as character morality decreases. We find that models struggle most
with traits directly antithetical to safety principles, such as ``Deceitful''
and ``Manipulative'', often substituting nuanced malevolence with superficial
aggression. Furthermore, we demonstrate that general chatbot proficiency is a
poor predictor of villain role-playing ability, with highly safety-aligned
models performing particularly poorly. Our work provides the first systematic
evidence of this critical limitation, highlighting a key tension between model
safety and creative fidelity. Our benchmark and findings pave the way for
developing more nuanced, context-aware alignment methods.