Oltre un Mondo: Benchmarking dei Supereroi nel Gioco di Ruolo attraverso Contesti Multiversali
Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts
October 16, 2025
Autori: Perapard Ngokpol, Kun Kerdthaisong, Pasin Buakhaw, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot
cs.AI
Abstract
I grandi modelli linguistici (LLM) sono sempre più utilizzati come agenti di role-playing, ma la loro capacità di rappresentare fedelmente e coerentemente personaggi specifici di diverse versioni — ad esempio, supereroi attraverso universi cinematografici e di fumetti — rimane poco esplorata. Canoni di supereroi come Marvel e DC forniscono un ricco banco di prova: decenni di narrazione hanno prodotto molteplici incarnazioni dello stesso personaggio con storie, valori e codici morali distinti. Per studiare questo problema, introduciamo Beyond One World, un benchmark per il role-playing basato su personaggi che copre 30 eroi iconici e 90 versioni specifiche del canone. Il benchmark comprende due compiti: (i) Eventi del Canone, che verifica il richiamo fattuale di fasi cruciali della vita, e (ii) Dilemmi Morali, che mette i modelli di fronte a scenari eticamente carichi. Valutiamo le risposte in termini di accuratezza canonica e fedeltà di ragionamento utilizzando un framework che separa la deliberazione interna ("pensare") dalle decisioni esterne ("agire"). Proponiamo inoltre il Think-Act Matching, una metrica che quantifica l'allineamento tra ragioni e azioni e funge da proxy per l'affidabilità del modello. Esperimenti condotti su modelli orientati al ragionamento e non orientati al ragionamento producono tre risultati: (1) il prompting a catena di pensiero migliora la coerenza narrativa nei modelli più deboli ma può ridurre l'accuratezza canonica in quelli più forti; (2) la generalizzazione tra versioni di uno stesso personaggio rimane un ostacolo significativo; e (3) i modelli spesso eccellono nel pensare o nell'agire, ma raramente in entrambi. Beyond One World mette in luce lacune critiche nella coerenza multiversale e nell'allineamento del ragionamento, offrendo una valutazione impegnativa per i LLM di role-playing.
English
Large language models (LLMs) are increasingly used as role-playing agents,
yet their capacity to faithfully and consistently portray version-specific
characters -- for example, superheroes across comic and cinematic universes --
remains underexplored. Superhero canons such as Marvel and DC provide a rich
testbed: decades of storytelling yield multiple incarnations of the same
character with distinct histories, values, and moral codes. To study this
problem, we introduce Beyond One World, a benchmark for character-grounded
roleplay spanning 30 iconic heroes and 90 canon-specific versions. The
benchmark comprises two tasks: (i) Canon Events, which probes factual recall of
pivotal life stages, and (ii) Moral Dilemmas, which confronts models with
ethically charged scenarios. We score responses for canonical accuracy and
reasoning fidelity under a framework that separates internal deliberation
("thinking") from outward decisions ("acting"). We further propose Think-Act
Matching, a metric that quantifies alignment between reasons and actions and
serves as a proxy for model trustworthiness. Experiments across reasoning- and
non-reasoning-oriented models yield three findings: (1) chain-of-thought
prompting improves narrative coherence in weaker models but can reduce
canonical accuracy in stronger ones; (2) cross-version generalization within a
character remains a major obstacle; and (3) models often excel at either
thinking or acting, but rarely both. Beyond One World exposes critical gaps in
multiversal consistency and reasoning alignment, offering a challenging
evaluation for role-playing LLMs.