ChatPaper.aiChatPaper

너무 나쁘기에는 좋은 인물: 대형 언어 모델의 악역 연기 실패 사례

Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

November 7, 2025
저자: Zihao Yi, Qingxuan Jiang, Ruotian Ma, Xingyu Chen, Qu Yang, Mengru Wang, Fanghua Ye, Ying Shen, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI

초록

대규모 언어 모델(LLM)은 가상 인물 시뮬레이션을 포함한 창의적 생성 작업에 점점 더 많이 활용되고 있습니다. 그러나 비친사회적이고 적대적인 인격체를 구현하는 모델의 능력은 대체로 연구되지 않은 상태입니다. 우리는 현대 LLM의 안전성 정렬이 도덕적으로 모호하거나 악당적인 캐릭터를 진정성 있게 역할 수행하는 작업과 근본적인 충돌을 일으킨다고 가정합니다. 이를 조사하기 위해 4단계 도덕적 성향 척도와 엄격한 평가를 위한 균형 잡힌 테스트 세트로 구성된 새로운 데이터 세트인 Moral RolePlay 벤치마크를 소개합니다. 우리는 최첨단 LLM에 도덕적 귀감부터 순수 악당에 이르는 다양한 캐릭터 역할 수행을 부여합니다. 대규모 평가 결과, 캐릭터의 도덕성이 낮아질수록 역할 수행 충실도가 일관되게 단조 감소하는 현상을 확인했습니다. 모델은 '기만적', '조종적'과 같이 안전성 원칙에 정반되는 특성을 구현하는 데 가장 큰 어려움을 보였으며, 종종 미묘한 악의를 피상적인 공격성으로 대체하는 경향이 있었습니다. 또한 일반 챗봇 성능은 악당 역할 수행 능력을 예측하는 데 부적합한 지표이며, 특히 안전성 정렬이 강한 모델일수록 성능이 현저히 낮다는 점을 입증했습니다. 본 연구는 모델 안전성과 창의적 충실도 간의 핵심적인 긴장 관계를 부각시키며, 이러한 중대한 한계에 대한 첫 번째 체계적 증거를 제시합니다. 우리의 벤치마크와 연구 결과는 더욱 세분화되고 상황 인식적인 정렬 방법 개발의 길을 열어줍니다.
English
Large Language Models (LLMs) are increasingly tasked with creative generation, including the simulation of fictional characters. However, their ability to portray non-prosocial, antagonistic personas remains largely unexamined. We hypothesize that the safety alignment of modern LLMs creates a fundamental conflict with the task of authentically role-playing morally ambiguous or villainous characters. To investigate this, we introduce the Moral RolePlay benchmark, a new dataset featuring a four-level moral alignment scale and a balanced test set for rigorous evaluation. We task state-of-the-art LLMs with role-playing characters from moral paragons to pure villains. Our large-scale evaluation reveals a consistent, monotonic decline in role-playing fidelity as character morality decreases. We find that models struggle most with traits directly antithetical to safety principles, such as ``Deceitful'' and ``Manipulative'', often substituting nuanced malevolence with superficial aggression. Furthermore, we demonstrate that general chatbot proficiency is a poor predictor of villain role-playing ability, with highly safety-aligned models performing particularly poorly. Our work provides the first systematic evidence of this critical limitation, highlighting a key tension between model safety and creative fidelity. Our benchmark and findings pave the way for developing more nuanced, context-aware alignment methods.
PDF527December 2, 2025