Jenseits einer Welt: Benchmarking von Superhelden im Rollenspiel über multiversale Kontexte hinweg
Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts
October 16, 2025
papers.authors: Perapard Ngokpol, Kun Kerdthaisong, Pasin Buakhaw, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) werden zunehmend als Rollenspielagenten eingesetzt, doch ihre Fähigkeit, versionsspezifische Charaktere treu und konsistent darzustellen – beispielsweise Superhelden aus Comic- und Filmuniversen – bleibt weitgehend unerforscht. Superheldenkanons wie Marvel und DC bieten einen reichhaltigen Prüfstand: Jahrzehnte des Geschichtenerzählens haben mehrere Inkarnationen desselben Charakters mit unterschiedlichen Hintergründen, Werten und moralischen Kodizes hervorgebracht. Um dieses Problem zu untersuchen, führen wir Beyond One World ein, einen Benchmark für charakterbasiertes Rollenspiel, der 30 ikonische Helden und 90 kanonspezifische Versionen umfasst. Der Benchmark besteht aus zwei Aufgaben: (i) Canon Events, die das faktische Erinnern entscheidender Lebensphasen abfragt, und (ii) Moral Dilemmas, die Modelle mit ethisch aufgeladenen Szenarien konfrontiert. Wir bewerten die Antworten hinsichtlich kanonischer Genauigkeit und argumentativer Treue unter einem Rahmen, der interne Überlegungen („Denken“) von äußeren Entscheidungen („Handeln“) trennt. Weiterhin schlagen wir Think-Act Matching vor, eine Metrik, die die Übereinstimmung zwischen Gründen und Handlungen quantifiziert und als Indikator für die Vertrauenswürdigkeit des Modells dient. Experimente mit argumentationsorientierten und nicht-argumentationsorientierten Modellen ergeben drei Erkenntnisse: (1) Chain-of-Thought-Prompting verbessert die narrative Kohärenz bei schwächeren Modellen, kann jedoch die kanonische Genauigkeit bei stärkeren Modellen verringern; (2) die versionsübergreifende Generalisierung innerhalb eines Charakters bleibt eine große Herausforderung; und (3) Modelle glänzen oft entweder beim Denken oder beim Handeln, aber selten bei beidem. Beyond One World deckt kritische Lücken in der multiversalen Konsistenz und argumentativen Ausrichtung auf und bietet eine anspruchsvolle Bewertung für rollenspielende LLMs.
English
Large language models (LLMs) are increasingly used as role-playing agents,
yet their capacity to faithfully and consistently portray version-specific
characters -- for example, superheroes across comic and cinematic universes --
remains underexplored. Superhero canons such as Marvel and DC provide a rich
testbed: decades of storytelling yield multiple incarnations of the same
character with distinct histories, values, and moral codes. To study this
problem, we introduce Beyond One World, a benchmark for character-grounded
roleplay spanning 30 iconic heroes and 90 canon-specific versions. The
benchmark comprises two tasks: (i) Canon Events, which probes factual recall of
pivotal life stages, and (ii) Moral Dilemmas, which confronts models with
ethically charged scenarios. We score responses for canonical accuracy and
reasoning fidelity under a framework that separates internal deliberation
("thinking") from outward decisions ("acting"). We further propose Think-Act
Matching, a metric that quantifies alignment between reasons and actions and
serves as a proxy for model trustworthiness. Experiments across reasoning- and
non-reasoning-oriented models yield three findings: (1) chain-of-thought
prompting improves narrative coherence in weaker models but can reduce
canonical accuracy in stronger ones; (2) cross-version generalization within a
character remains a major obstacle; and (3) models often excel at either
thinking or acting, but rarely both. Beyond One World exposes critical gaps in
multiversal consistency and reasoning alignment, offering a challenging
evaluation for role-playing LLMs.