ChatPaper.aiChatPaper

Jenseits einer Welt: Benchmarking von Superhelden im Rollenspiel über multiversale Kontexte hinweg

Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts

October 16, 2025
papers.authors: Perapard Ngokpol, Kun Kerdthaisong, Pasin Buakhaw, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) werden zunehmend als Rollenspielagenten eingesetzt, doch ihre Fähigkeit, versionsspezifische Charaktere treu und konsistent darzustellen – beispielsweise Superhelden aus Comic- und Filmuniversen – bleibt weitgehend unerforscht. Superheldenkanons wie Marvel und DC bieten einen reichhaltigen Prüfstand: Jahrzehnte des Geschichtenerzählens haben mehrere Inkarnationen desselben Charakters mit unterschiedlichen Hintergründen, Werten und moralischen Kodizes hervorgebracht. Um dieses Problem zu untersuchen, führen wir Beyond One World ein, einen Benchmark für charakterbasiertes Rollenspiel, der 30 ikonische Helden und 90 kanonspezifische Versionen umfasst. Der Benchmark besteht aus zwei Aufgaben: (i) Canon Events, die das faktische Erinnern entscheidender Lebensphasen abfragt, und (ii) Moral Dilemmas, die Modelle mit ethisch aufgeladenen Szenarien konfrontiert. Wir bewerten die Antworten hinsichtlich kanonischer Genauigkeit und argumentativer Treue unter einem Rahmen, der interne Überlegungen („Denken“) von äußeren Entscheidungen („Handeln“) trennt. Weiterhin schlagen wir Think-Act Matching vor, eine Metrik, die die Übereinstimmung zwischen Gründen und Handlungen quantifiziert und als Indikator für die Vertrauenswürdigkeit des Modells dient. Experimente mit argumentationsorientierten und nicht-argumentationsorientierten Modellen ergeben drei Erkenntnisse: (1) Chain-of-Thought-Prompting verbessert die narrative Kohärenz bei schwächeren Modellen, kann jedoch die kanonische Genauigkeit bei stärkeren Modellen verringern; (2) die versionsübergreifende Generalisierung innerhalb eines Charakters bleibt eine große Herausforderung; und (3) Modelle glänzen oft entweder beim Denken oder beim Handeln, aber selten bei beidem. Beyond One World deckt kritische Lücken in der multiversalen Konsistenz und argumentativen Ausrichtung auf und bietet eine anspruchsvolle Bewertung für rollenspielende LLMs.
English
Large language models (LLMs) are increasingly used as role-playing agents, yet their capacity to faithfully and consistently portray version-specific characters -- for example, superheroes across comic and cinematic universes -- remains underexplored. Superhero canons such as Marvel and DC provide a rich testbed: decades of storytelling yield multiple incarnations of the same character with distinct histories, values, and moral codes. To study this problem, we introduce Beyond One World, a benchmark for character-grounded roleplay spanning 30 iconic heroes and 90 canon-specific versions. The benchmark comprises two tasks: (i) Canon Events, which probes factual recall of pivotal life stages, and (ii) Moral Dilemmas, which confronts models with ethically charged scenarios. We score responses for canonical accuracy and reasoning fidelity under a framework that separates internal deliberation ("thinking") from outward decisions ("acting"). We further propose Think-Act Matching, a metric that quantifies alignment between reasons and actions and serves as a proxy for model trustworthiness. Experiments across reasoning- and non-reasoning-oriented models yield three findings: (1) chain-of-thought prompting improves narrative coherence in weaker models but can reduce canonical accuracy in stronger ones; (2) cross-version generalization within a character remains a major obstacle; and (3) models often excel at either thinking or acting, but rarely both. Beyond One World exposes critical gaps in multiversal consistency and reasoning alignment, offering a challenging evaluation for role-playing LLMs.
PDF12October 17, 2025