ChatPaper.aiChatPaper

단일 세계를 넘어선: 다중 우주적 맥락에서의 롤플레잉 슈퍼히어로 벤치마킹

Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts

October 16, 2025
저자: Perapard Ngokpol, Kun Kerdthaisong, Pasin Buakhaw, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot
cs.AI

초록

대형 언어 모델(LLMs)은 점점 더 역할 수행 에이전트로 사용되고 있지만, 버전별 캐릭터(예: 코믹스와 영화 세계관에 걸친 슈퍼히어로)를 충실하고 일관되게 표현하는 능력은 아직 충분히 탐구되지 않았다. 마블과 DC와 같은 슈퍼히어로 캐논은 풍부한 테스트베드를 제공한다: 수십 년에 걸친 스토리텔링은 동일한 캐릭터의 다양한 버전을 만들어냈으며, 각각은 독특한 역사, 가치관, 도덕적 규범을 지니고 있다. 이 문제를 연구하기 위해, 우리는 30명의 상징적인 히어로와 90개의 캐논별 버전을 아우르는 캐릭터 기반 역할극 벤치마크인 "Beyond One World"를 소개한다. 이 벤치마크는 두 가지 과제로 구성된다: (i) 캐논 이벤트(Canon Events), 이는 주요 생애 단계에 대한 사실적 회상을 탐구하며, (ii) 도덕적 딜레마(Moral Dilemmas), 이는 모델을 윤리적으로 복잡한 시나리오에 직면하게 한다. 우리는 내부 고민("생각")과 외부 결정("행동")을 구분하는 프레임워크 하에서 응답의 캐논 정확성과 추론 충실도를 평가한다. 또한, 이유와 행동 간의 일치를 정량화하고 모델 신뢰성의 대리 지표로 작용하는 "Think-Act Matching" 메트릭을 제안한다. 추론 지향적 및 비추론 지향적 모델을 대상으로 한 실험은 세 가지 주요 결과를 도출했다: (1) 사고의 연쇄(chain-of-thought) 프롬프트는 약한 모델에서 내러티브 일관성을 개선하지만, 강한 모델에서는 캐논 정확성을 감소시킬 수 있다; (2) 한 캐릭터 내에서의 버전 간 일반화는 여전히 주요 장애물로 남아 있다; (3) 모델은 종종 "생각" 또는 "행동" 중 하나에서 뛰어나지만, 둘 다에서 뛰어난 경우는 드물다. "Beyond One World"는 다중 세계관 일관성과 추론 정렬에서의 중요한 격차를 드러내며, 역할극 LLMs에 대한 도전적인 평가를 제공한다.
English
Large language models (LLMs) are increasingly used as role-playing agents, yet their capacity to faithfully and consistently portray version-specific characters -- for example, superheroes across comic and cinematic universes -- remains underexplored. Superhero canons such as Marvel and DC provide a rich testbed: decades of storytelling yield multiple incarnations of the same character with distinct histories, values, and moral codes. To study this problem, we introduce Beyond One World, a benchmark for character-grounded roleplay spanning 30 iconic heroes and 90 canon-specific versions. The benchmark comprises two tasks: (i) Canon Events, which probes factual recall of pivotal life stages, and (ii) Moral Dilemmas, which confronts models with ethically charged scenarios. We score responses for canonical accuracy and reasoning fidelity under a framework that separates internal deliberation ("thinking") from outward decisions ("acting"). We further propose Think-Act Matching, a metric that quantifies alignment between reasons and actions and serves as a proxy for model trustworthiness. Experiments across reasoning- and non-reasoning-oriented models yield three findings: (1) chain-of-thought prompting improves narrative coherence in weaker models but can reduce canonical accuracy in stronger ones; (2) cross-version generalization within a character remains a major obstacle; and (3) models often excel at either thinking or acting, but rarely both. Beyond One World exposes critical gaps in multiversal consistency and reasoning alignment, offering a challenging evaluation for role-playing LLMs.
PDF12October 17, 2025