Слишком хорош, чтобы быть плохим: о неудачных попытках языковых моделей играть роль злодеев
Too Good to be Bad: On the Failure of LLMs to Role-Play Villains
November 7, 2025
Авторы: Zihao Yi, Qingxuan Jiang, Ruotian Ma, Xingyu Chen, Qu Yang, Mengru Wang, Fanghua Ye, Ying Shen, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI
Аннотация
Крупные языковые модели (LLM) все чаще используются для решения творческих задач, включая симуляцию вымышленных персонажей. Однако их способность воплощать антисоциальные, антагонистические персонажи остается в значительной степени неисследованной. Мы выдвигаем гипотезу, что безопасностная адаптация современных LLM создает фундаментальный конфликт с задачей аутентичного исполнения ролей морально неоднозначных или злодейских персонажей. Для исследования этого вопроса мы представляем бенчмарк Moral RolePlay — новый набор данных, включающий четырехуровневую шкалу морального выравнивания и сбалансированный тестовый набор для строгой оценки. Мы поручаем передовым LLM играть роли персонажей — от моральных образцов для подражания до чистых злодеев. Наша масштабная оценка выявляет последовательное, монотонное снижение достоверности ролевой игры по мере уменьшения моральности персонажа. Мы обнаруживаем, что модели наиболее сильно затрудняются с чертами, напрямую противоположными принципам безопасности, такими как «лживость» и «манипулятивность», часто подменяя нюансированную злобу поверхностной агрессией. Кроме того, мы показываем, что общая эффективность модели в качестве чат-бота является плохим предиктором способности к исполнению ролей злодеев, причем высокоадаптированные в плане безопасности модели демонстрируют особенно низкие результаты. Наша работа представляет первые систематические доказательства этого критического ограничения, подчеркивая ключевое противоречие между безопасностью модели и творческой достоверностью. Наш бенчмарк и выводы прокладывают путь к разработке более нюансированных, контекстно-зависимых методов адаптации.
English
Large Language Models (LLMs) are increasingly tasked with creative
generation, including the simulation of fictional characters. However, their
ability to portray non-prosocial, antagonistic personas remains largely
unexamined. We hypothesize that the safety alignment of modern LLMs creates a
fundamental conflict with the task of authentically role-playing morally
ambiguous or villainous characters. To investigate this, we introduce the Moral
RolePlay benchmark, a new dataset featuring a four-level moral alignment scale
and a balanced test set for rigorous evaluation. We task state-of-the-art LLMs
with role-playing characters from moral paragons to pure villains. Our
large-scale evaluation reveals a consistent, monotonic decline in role-playing
fidelity as character morality decreases. We find that models struggle most
with traits directly antithetical to safety principles, such as ``Deceitful''
and ``Manipulative'', often substituting nuanced malevolence with superficial
aggression. Furthermore, we demonstrate that general chatbot proficiency is a
poor predictor of villain role-playing ability, with highly safety-aligned
models performing particularly poorly. Our work provides the first systematic
evidence of this critical limitation, highlighting a key tension between model
safety and creative fidelity. Our benchmark and findings pave the way for
developing more nuanced, context-aware alignment methods.