ChatPaper.aiChatPaper

Слишком хорош, чтобы быть плохим: о неудачных попытках языковых моделей играть роль злодеев

Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

November 7, 2025
Авторы: Zihao Yi, Qingxuan Jiang, Ruotian Ma, Xingyu Chen, Qu Yang, Mengru Wang, Fanghua Ye, Ying Shen, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI

Аннотация

Крупные языковые модели (LLM) все чаще используются для решения творческих задач, включая симуляцию вымышленных персонажей. Однако их способность воплощать антисоциальные, антагонистические персонажи остается в значительной степени неисследованной. Мы выдвигаем гипотезу, что безопасностная адаптация современных LLM создает фундаментальный конфликт с задачей аутентичного исполнения ролей морально неоднозначных или злодейских персонажей. Для исследования этого вопроса мы представляем бенчмарк Moral RolePlay — новый набор данных, включающий четырехуровневую шкалу морального выравнивания и сбалансированный тестовый набор для строгой оценки. Мы поручаем передовым LLM играть роли персонажей — от моральных образцов для подражания до чистых злодеев. Наша масштабная оценка выявляет последовательное, монотонное снижение достоверности ролевой игры по мере уменьшения моральности персонажа. Мы обнаруживаем, что модели наиболее сильно затрудняются с чертами, напрямую противоположными принципам безопасности, такими как «лживость» и «манипулятивность», часто подменяя нюансированную злобу поверхностной агрессией. Кроме того, мы показываем, что общая эффективность модели в качестве чат-бота является плохим предиктором способности к исполнению ролей злодеев, причем высокоадаптированные в плане безопасности модели демонстрируют особенно низкие результаты. Наша работа представляет первые систематические доказательства этого критического ограничения, подчеркивая ключевое противоречие между безопасностью модели и творческой достоверностью. Наш бенчмарк и выводы прокладывают путь к разработке более нюансированных, контекстно-зависимых методов адаптации.
English
Large Language Models (LLMs) are increasingly tasked with creative generation, including the simulation of fictional characters. However, their ability to portray non-prosocial, antagonistic personas remains largely unexamined. We hypothesize that the safety alignment of modern LLMs creates a fundamental conflict with the task of authentically role-playing morally ambiguous or villainous characters. To investigate this, we introduce the Moral RolePlay benchmark, a new dataset featuring a four-level moral alignment scale and a balanced test set for rigorous evaluation. We task state-of-the-art LLMs with role-playing characters from moral paragons to pure villains. Our large-scale evaluation reveals a consistent, monotonic decline in role-playing fidelity as character morality decreases. We find that models struggle most with traits directly antithetical to safety principles, such as ``Deceitful'' and ``Manipulative'', often substituting nuanced malevolence with superficial aggression. Furthermore, we demonstrate that general chatbot proficiency is a poor predictor of villain role-playing ability, with highly safety-aligned models performing particularly poorly. Our work provides the first systematic evidence of this critical limitation, highlighting a key tension between model safety and creative fidelity. Our benchmark and findings pave the way for developing more nuanced, context-aware alignment methods.
PDF527December 2, 2025