ChatPaper.aiChatPaper

Muito Bom para Ser Mau: Sobre a Incapacidade dos LLMs em Representar Vilões

Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

November 7, 2025
Autores: Zihao Yi, Qingxuan Jiang, Ruotian Ma, Xingyu Chen, Qu Yang, Mengru Wang, Fanghua Ye, Ying Shen, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) estão a ser cada vez mais incumbidos da geração criativa, incluindo a simulação de personagens ficcionais. No entanto, a sua capacidade de retratar personas antagónicas e não pró-sociais permanece amplamente não examinada. Colocamos a hipótese de que o alinhamento de segurança dos LLMs modernos cria um conflito fundamental com a tarefa de representar autenticamente personagens moralmente ambíguas ou vilanescas. Para investigar isto, apresentamos o benchmark Moral RolePlay, um novo conjunto de dados que apresenta uma escala de alinhamento moral de quatro níveis e um conjunto de testes equilibrado para avaliação rigorosa. Atribuímos a LLMs de última geração a tarefa de representar personagens, desde paradigmas de moralidade até vilões puros. A nossa avaliação em larga escala revela um declínio consistente e monótono na fidelidade da representação à medida que a moralidade da personagem diminui. Verificamos que os modelos têm mais dificuldade com traços diretamente antitéticos aos princípios de segurança, como "Enganador" e "Manipulador", substituindo frequentemente a malevolência subtil por agressão superficial. Além disso, demonstramos que a proficiência geral de um chatbot é um mau indicador da sua capacidade de representar vilões, com modelos altamente alinhados com a segurança a terem um desempenho particularmente fraco. O nosso trabalho fornece a primeira evidência sistemática desta limitação crítica, destacando uma tensão fundamental entre a segurança do modelo e a fidelidade criativa. O nosso benchmark e descobertas abrem caminho para o desenvolvimento de métodos de alinhamento mais subtis e conscientes do contexto.
English
Large Language Models (LLMs) are increasingly tasked with creative generation, including the simulation of fictional characters. However, their ability to portray non-prosocial, antagonistic personas remains largely unexamined. We hypothesize that the safety alignment of modern LLMs creates a fundamental conflict with the task of authentically role-playing morally ambiguous or villainous characters. To investigate this, we introduce the Moral RolePlay benchmark, a new dataset featuring a four-level moral alignment scale and a balanced test set for rigorous evaluation. We task state-of-the-art LLMs with role-playing characters from moral paragons to pure villains. Our large-scale evaluation reveals a consistent, monotonic decline in role-playing fidelity as character morality decreases. We find that models struggle most with traits directly antithetical to safety principles, such as ``Deceitful'' and ``Manipulative'', often substituting nuanced malevolence with superficial aggression. Furthermore, we demonstrate that general chatbot proficiency is a poor predictor of villain role-playing ability, with highly safety-aligned models performing particularly poorly. Our work provides the first systematic evidence of this critical limitation, highlighting a key tension between model safety and creative fidelity. Our benchmark and findings pave the way for developing more nuanced, context-aware alignment methods.
PDF527December 2, 2025