ChatPaper.aiChatPaper

ワンワールドを超えて:多元宇宙コンテクストにおけるロールプレイングのスーパーヒーローベンチマーキング

Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts

October 16, 2025
著者: Perapard Ngokpol, Kun Kerdthaisong, Pasin Buakhaw, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot
cs.AI

要旨

大規模言語モデル(LLMs)は、役割を演じるエージェントとしてますます利用されているが、バージョン固有のキャラクター――例えば、コミックや映画のユニバースにまたがるスーパーヒーロー――を忠実かつ一貫して描写する能力については、まだ十分に検証されていない。マーベルやDCなどのスーパーヒーロー作品は、豊かな実験場を提供する:数十年にわたるストーリーテリングにより、同じキャラクターでも異なる歴史、価値観、道徳観を持つ複数の化身が生み出されている。この問題を研究するため、我々は「Beyond One World」というベンチマークを導入した。これは、30人の象徴的なヒーローと90のカノン固有のバージョンにわたるキャラクター基盤のロールプレイを対象としている。このベンチマークは2つのタスクで構成される:(i) カノンイベント:キャラクターの重要な人生の段階に関する事実の記憶を探るもの、(ii) モラルジレンマ:倫理的に難しいシナリオにモデルを直面させるもの。我々は、内部の熟考(「思考」)と外部の決定(「行動」)を分離するフレームワークの下で、応答のカノン的精度と推論の忠実度を評価する。さらに、理由と行動の整合性を定量化し、モデルの信頼性の代理指標として機能する「Think-Act Matching」という指標を提案する。推論指向および非推論指向のモデルを対象とした実験から、以下の3つの知見が得られた:(1) チェーン・オブ・シンクト(連鎖的思考)プロンプトは、弱いモデルでは物語の一貫性を向上させるが、強いモデルではカノン的精度を低下させる可能性がある、(2) キャラクター内でのクロスバージョン汎化は依然として大きな障害である、(3) モデルはしばしば「思考」または「行動」のいずれかに優れているが、両方に優れていることは稀である。「Beyond One World」は、マルチバースの一貫性と推論の整合性における重要なギャップを明らかにし、ロールプレイLLMsにとって挑戦的な評価を提供する。
English
Large language models (LLMs) are increasingly used as role-playing agents, yet their capacity to faithfully and consistently portray version-specific characters -- for example, superheroes across comic and cinematic universes -- remains underexplored. Superhero canons such as Marvel and DC provide a rich testbed: decades of storytelling yield multiple incarnations of the same character with distinct histories, values, and moral codes. To study this problem, we introduce Beyond One World, a benchmark for character-grounded roleplay spanning 30 iconic heroes and 90 canon-specific versions. The benchmark comprises two tasks: (i) Canon Events, which probes factual recall of pivotal life stages, and (ii) Moral Dilemmas, which confronts models with ethically charged scenarios. We score responses for canonical accuracy and reasoning fidelity under a framework that separates internal deliberation ("thinking") from outward decisions ("acting"). We further propose Think-Act Matching, a metric that quantifies alignment between reasons and actions and serves as a proxy for model trustworthiness. Experiments across reasoning- and non-reasoning-oriented models yield three findings: (1) chain-of-thought prompting improves narrative coherence in weaker models but can reduce canonical accuracy in stronger ones; (2) cross-version generalization within a character remains a major obstacle; and (3) models often excel at either thinking or acting, but rarely both. Beyond One World exposes critical gaps in multiversal consistency and reasoning alignment, offering a challenging evaluation for role-playing LLMs.
PDF12October 17, 2025