ChatPaper.aiChatPaper

Voorbij Eén Wereld: Benchmarken van Superhelden in Rollenspel over Multiversale Contexten

Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts

October 16, 2025
Auteurs: Perapard Ngokpol, Kun Kerdthaisong, Pasin Buakhaw, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot
cs.AI

Samenvatting

Grote taalmmodellen (LLMs) worden steeds vaker gebruikt als rollenspelagenten, maar hun vermogen om versiespecifieke personages trouw en consistent uit te beelden – bijvoorbeeld superhelden uit verschillende strip- en filmuniversa – blijft onderbelicht. Superheldencanons zoals Marvel en DC bieden een rijke testomgeving: decennia van verhalen resulteren in meerdere incarnaties van hetzelfde personage met verschillende achtergronden, waarden en morele codes. Om dit probleem te bestuderen, introduceren we Beyond One World, een benchmark voor karaktergebaseerd rollenspel dat 30 iconische helden en 90 canonspecifieke versies omvat. De benchmark bestaat uit twee taken: (i) Canon Events, die het feitelijke geheugen van cruciale levensfasen test, en (ii) Moral Dilemmas, die modellen confronteert met ethisch geladen scenario’s. We beoordelen antwoorden op canonieke nauwkeurigheid en redeneerbetrouwbaarheid binnen een raamwerk dat interne overwegingen ("denken") scheidt van uiterlijke beslissingen ("handelen"). We introduceren verder Think-Act Matching, een metriek die de afstemming tussen redenen en acties kwantificeert en als proxy dient voor modelbetrouwbaarheid. Experimenten met zowel redeneer- als niet-redeneergerichte modellen leveren drie bevindingen op: (1) chain-of-thought prompting verbetert narratieve samenhang bij zwakkere modellen, maar kan canonieke nauwkeurigheid bij sterkere modellen verminderen; (2) cross-versie generalisatie binnen een personage blijft een groot obstakel; en (3) modellen blinken vaak uit in óf denken óf handelen, maar zelden in beide. Beyond One World legt kritieke lacunes bloot in multiversale consistentie en redeneerafstemming, en biedt een uitdagende evaluatie voor rollenspel-LLMs.
English
Large language models (LLMs) are increasingly used as role-playing agents, yet their capacity to faithfully and consistently portray version-specific characters -- for example, superheroes across comic and cinematic universes -- remains underexplored. Superhero canons such as Marvel and DC provide a rich testbed: decades of storytelling yield multiple incarnations of the same character with distinct histories, values, and moral codes. To study this problem, we introduce Beyond One World, a benchmark for character-grounded roleplay spanning 30 iconic heroes and 90 canon-specific versions. The benchmark comprises two tasks: (i) Canon Events, which probes factual recall of pivotal life stages, and (ii) Moral Dilemmas, which confronts models with ethically charged scenarios. We score responses for canonical accuracy and reasoning fidelity under a framework that separates internal deliberation ("thinking") from outward decisions ("acting"). We further propose Think-Act Matching, a metric that quantifies alignment between reasons and actions and serves as a proxy for model trustworthiness. Experiments across reasoning- and non-reasoning-oriented models yield three findings: (1) chain-of-thought prompting improves narrative coherence in weaker models but can reduce canonical accuracy in stronger ones; (2) cross-version generalization within a character remains a major obstacle; and (3) models often excel at either thinking or acting, but rarely both. Beyond One World exposes critical gaps in multiversal consistency and reasoning alignment, offering a challenging evaluation for role-playing LLMs.
PDF12October 17, 2025