Au-delà d'un seul monde : Évaluation des super-héros dans le jeu de rôle à travers des contextes multiversels
Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts
October 16, 2025
papers.authors: Perapard Ngokpol, Kun Kerdthaisong, Pasin Buakhaw, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) sont de plus en plus utilisés comme agents de jeu de rôle, mais leur capacité à incarner fidèlement et de manière cohérente des personnages spécifiques à une version — par exemple, des super-héros à travers les univers de bandes dessinées et cinématographiques — reste peu explorée. Les canons de super-héros tels que Marvel et DC offrent un terrain d'essai riche : des décennies de narration ont donné naissance à de multiples incarnations d'un même personnage, chacune avec des histoires, des valeurs et des codes moraux distincts. Pour étudier ce problème, nous introduisons Beyond One World, un benchmark pour le jeu de rôle ancré dans des personnages, couvrant 30 héros iconiques et 90 versions spécifiques à un canon. Le benchmark comprend deux tâches : (i) Événements Canoniques, qui teste la capacité à se souvenir des étapes clés de la vie, et (ii) Dilemmes Moraux, qui confronte les modèles à des scénarios éthiquement chargés. Nous évaluons les réponses en termes de précision canonique et de fidélité du raisonnement selon un cadre qui sépare la délibération interne (« penser ») des décisions externes (« agir »). Nous proposons également Think-Act Matching, une métrique qui quantifie l'alignement entre les raisons et les actions et sert de proxy pour la fiabilité du modèle. Les expériences menées sur des modèles orientés et non orientés vers le raisonnement révèlent trois conclusions : (1) l'incitation en chaîne de pensée améliore la cohérence narrative dans les modèles plus faibles mais peut réduire la précision canonique dans les modèles plus performants ; (2) la généralisation inter-versions au sein d'un même personnage reste un obstacle majeur ; et (3) les modèles excellent souvent soit dans la pensée, soit dans l'action, mais rarement dans les deux. Beyond One World met en lumière des lacunes critiques en matière de cohérence multiverselle et d'alignement du raisonnement, offrant une évaluation exigeante pour les LLMs de jeu de rôle.
English
Large language models (LLMs) are increasingly used as role-playing agents,
yet their capacity to faithfully and consistently portray version-specific
characters -- for example, superheroes across comic and cinematic universes --
remains underexplored. Superhero canons such as Marvel and DC provide a rich
testbed: decades of storytelling yield multiple incarnations of the same
character with distinct histories, values, and moral codes. To study this
problem, we introduce Beyond One World, a benchmark for character-grounded
roleplay spanning 30 iconic heroes and 90 canon-specific versions. The
benchmark comprises two tasks: (i) Canon Events, which probes factual recall of
pivotal life stages, and (ii) Moral Dilemmas, which confronts models with
ethically charged scenarios. We score responses for canonical accuracy and
reasoning fidelity under a framework that separates internal deliberation
("thinking") from outward decisions ("acting"). We further propose Think-Act
Matching, a metric that quantifies alignment between reasons and actions and
serves as a proxy for model trustworthiness. Experiments across reasoning- and
non-reasoning-oriented models yield three findings: (1) chain-of-thought
prompting improves narrative coherence in weaker models but can reduce
canonical accuracy in stronger ones; (2) cross-version generalization within a
character remains a major obstacle; and (3) models often excel at either
thinking or acting, but rarely both. Beyond One World exposes critical gaps in
multiversal consistency and reasoning alignment, offering a challenging
evaluation for role-playing LLMs.