あまりにも善良で悪役になれない:大規模言語モデルが悪役を演じることに失敗する理由
Too Good to be Bad: On the Failure of LLMs to Role-Play Villains
November 7, 2025
著者: Zihao Yi, Qingxuan Jiang, Ruotian Ma, Xingyu Chen, Qu Yang, Mengru Wang, Fanghua Ye, Ying Shen, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI
要旨
大規模言語モデル(LLM)は、架空のキャラクターのシミュレーションを含む創造的生成タスクにますます活用されている。しかし、非親社会的で敵対的な人物像を描写する能力については、ほとんど検証がなされていない。現代のLLMに施された安全性アライメントが、道徳的に曖昧なキャラクターや悪役を真に迫る形で演じるタスクと根本的な矛盾を生じると我々は仮説を立てる。これを検証するため、4段階の道徳的アライメント尺度と厳密な評価のための均衡の取れたテストセットを備えた新しいデータセット「Moral RolePlay」ベンチマークを提案する。最先端のLLMに、道徳的模範から純粋な悪役までのキャラクター演技を課した大規模評価により、キャラクターの道徳性が低下するにつれて役割演技の忠実度が一貫して単調減少することを明らかにした。特に「欺瞞的」「操作的」など安全性原則と真っ向から対立する特性でモデルが最も苦戦し、しばしば微妙な悪意を表層的な攻撃性で置き換えることを確認した。さらに、一般的なチャットボットとしての能力は悪役演技の適性をほとんど予測せず、強く安全性アライメントされたモデルほど特に低性能であることを実証する。本研究は、モデルの安全性と創造的忠実性の間の重大な緊張関係を浮き彫りにし、この重要な制約に関する初の体系的証拠を提供する。提案するベンチマークと知見は、より繊細で文脈を意識したアライメント手法の開発への道を開くものである。
English
Large Language Models (LLMs) are increasingly tasked with creative
generation, including the simulation of fictional characters. However, their
ability to portray non-prosocial, antagonistic personas remains largely
unexamined. We hypothesize that the safety alignment of modern LLMs creates a
fundamental conflict with the task of authentically role-playing morally
ambiguous or villainous characters. To investigate this, we introduce the Moral
RolePlay benchmark, a new dataset featuring a four-level moral alignment scale
and a balanced test set for rigorous evaluation. We task state-of-the-art LLMs
with role-playing characters from moral paragons to pure villains. Our
large-scale evaluation reveals a consistent, monotonic decline in role-playing
fidelity as character morality decreases. We find that models struggle most
with traits directly antithetical to safety principles, such as ``Deceitful''
and ``Manipulative'', often substituting nuanced malevolence with superficial
aggression. Furthermore, we demonstrate that general chatbot proficiency is a
poor predictor of villain role-playing ability, with highly safety-aligned
models performing particularly poorly. Our work provides the first systematic
evidence of this critical limitation, highlighting a key tension between model
safety and creative fidelity. Our benchmark and findings pave the way for
developing more nuanced, context-aware alignment methods.