ChatPaper.aiChatPaper

Demasiado Bueno para ser Malo: Sobre el Fracaso de los Modelos de Lenguaje Grandes al Interpretar Villanos

Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

November 7, 2025
Autores: Zihao Yi, Qingxuan Jiang, Ruotian Ma, Xingyu Chen, Qu Yang, Mengru Wang, Fanghua Ye, Ying Shen, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI

Resumen

Los Modelos de Lenguaje a Gran Escala (LLMs) son asignados cada vez más a tareas de generación creativa, incluyendo la simulación de personajes ficticios. Sin embargo, su capacidad para representar personajes antagónicos y no prosociales permanece en gran medida sin examinar. Nuestra hipótesis es que la alineación de seguridad de los LLMs modernos crea un conflicto fundamental con la tarea de representar auténticamente personajes moralmente ambiguos o villanos. Para investigar esto, presentamos el benchmark Moral RolePlay, un nuevo conjunto de datos que presenta una escala de alineación moral de cuatro niveles y un conjunto de prueba equilibrado para una evaluación rigurosa. Asignamos a LLMs de vanguardia la tarea de representar personajes que van desde paradigmas morales hasta villanos puros. Nuestra evaluación a gran escala revela un declive consistente y monótono en la fidelidad de la representación a medida que disminuye la moralidad del personaje. Encontramos que los modelos tienen más dificultades con rasgos directamente antitéticos a los principios de seguridad, como "Engañoso" y "Manipulador", sustituyendo a menudo la malevolencia matizada con agresión superficial. Además, demostramos que la competencia general de un chatbot es un predictor deficiente de su capacidad para representar villanos, y que los modelos altamente alineados con la seguridad obtienen resultados particularmente pobres. Nuestro trabajo proporciona la primera evidencia sistemática de esta limitación crítica, destacando una tensión clave entre la seguridad del modelo y la fidelidad creativa. Nuestro benchmark y hallazgos allanan el camino para desarrollar métodos de alineación más matizados y conscientes del contexto.
English
Large Language Models (LLMs) are increasingly tasked with creative generation, including the simulation of fictional characters. However, their ability to portray non-prosocial, antagonistic personas remains largely unexamined. We hypothesize that the safety alignment of modern LLMs creates a fundamental conflict with the task of authentically role-playing morally ambiguous or villainous characters. To investigate this, we introduce the Moral RolePlay benchmark, a new dataset featuring a four-level moral alignment scale and a balanced test set for rigorous evaluation. We task state-of-the-art LLMs with role-playing characters from moral paragons to pure villains. Our large-scale evaluation reveals a consistent, monotonic decline in role-playing fidelity as character morality decreases. We find that models struggle most with traits directly antithetical to safety principles, such as ``Deceitful'' and ``Manipulative'', often substituting nuanced malevolence with superficial aggression. Furthermore, we demonstrate that general chatbot proficiency is a poor predictor of villain role-playing ability, with highly safety-aligned models performing particularly poorly. Our work provides the first systematic evidence of this critical limitation, highlighting a key tension between model safety and creative fidelity. Our benchmark and findings pave the way for developing more nuanced, context-aware alignment methods.
PDF527December 2, 2025