Muito Bom para Ser Mau: Sobre a Incapacidade dos LLMs em Representar Vilões

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) estão a ser cada vez mais incumbidos da geração criativa, incluindo a simulação de personagens ficcionais. No entanto, a sua capacidade de retratar personas antagónicas e não pró-sociais permanece amplamente não examinada. Colocamos a hipótese de que o alinhamento de segurança dos LLMs modernos cria um conflito fundamental com a tarefa de representar autenticamente personagens moralmente ambíguas ou vilanescas. Para investigar isto, apresentamos o benchmark Moral RolePlay, um novo conjunto de dados que apresenta uma escala de alinhamento moral de quatro níveis e um conjunto de testes equilibrado para avaliação rigorosa. Atribuímos a LLMs de última geração a tarefa de representar personagens, desde paradigmas de moralidade até vilões puros. A nossa avaliação em larga escala revela um declínio consistente e monótono na fidelidade da representação à medida que a moralidade da personagem diminui. Verificamos que os modelos têm mais dificuldade com traços diretamente antitéticos aos princípios de segurança, como "Enganador" e "Manipulador", substituindo frequentemente a malevolência subtil por agressão superficial. Além disso, demonstramos que a proficiência geral de um chatbot é um mau indicador da sua capacidade de representar vilões, com modelos altamente alinhados com a segurança a terem um desempenho particularmente fraco. O nosso trabalho fornece a primeira evidência sistemática desta limitação crítica, destacando uma tensão fundamental entre a segurança do modelo e a fidelidade criativa. O nosso benchmark e descobertas abrem caminho para o desenvolvimento de métodos de alinhamento mais subtis e conscientes do contexto.

English

Large Language Models (LLMs) are increasingly tasked with creative generation, including the simulation of fictional characters. However, their ability to portray non-prosocial, antagonistic personas remains largely unexamined. We hypothesize that the safety alignment of modern LLMs creates a fundamental conflict with the task of authentically role-playing morally ambiguous or villainous characters. To investigate this, we introduce the Moral RolePlay benchmark, a new dataset featuring a four-level moral alignment scale and a balanced test set for rigorous evaluation. We task state-of-the-art LLMs with role-playing characters from moral paragons to pure villains. Our large-scale evaluation reveals a consistent, monotonic decline in role-playing fidelity as character morality decreases. We find that models struggle most with traits directly antithetical to safety principles, such as ``Deceitful'' and ``Manipulative'', often substituting nuanced malevolence with superficial aggression. Furthermore, we demonstrate that general chatbot proficiency is a poor predictor of villain role-playing ability, with highly safety-aligned models performing particularly poorly. Our work provides the first systematic evidence of this critical limitation, highlighting a key tension between model safety and creative fidelity. Our benchmark and findings pave the way for developing more nuanced, context-aware alignment methods.

Muito Bom para Ser Mau: Sobre a Incapacidade dos LLMs em Representar Vilões

Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

Resumo

Support