Além de Um Mundo: Avaliando Super-Heróis em Jogos de Interpretação de Papéis em Contextos Multiversais
Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts
October 16, 2025
Autores: Perapard Ngokpol, Kun Kerdthaisong, Pasin Buakhaw, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais utilizados como agentes de role-playing, mas sua capacidade de retratar fiel e consistentemente personagens específicos de diferentes versões — por exemplo, super-heróis em universos de quadrinhos e cinematográficos — ainda é pouco explorada. Cânones de super-heróis como Marvel e DC oferecem um rico campo de testes: décadas de narrativas resultam em múltiplas encarnações do mesmo personagem com histórias, valores e códigos morais distintos. Para estudar esse problema, introduzimos o Beyond One World, um benchmark para role-playing baseado em personagens, abrangendo 30 heróis icônicos e 90 versões específicas de cânones. O benchmark compreende duas tarefas: (i) Eventos Canônicos, que avalia a recordação factual de estágios cruciais da vida, e (ii) Dilemas Morais, que confronta os modelos com cenários eticamente carregados. Avaliamos as respostas quanto à precisão canônica e fidelidade de raciocínio sob um framework que separa a deliberação interna ("pensar") das decisões externas ("agir"). Além disso, propomos o Think-Act Matching, uma métrica que quantifica o alinhamento entre razões e ações e serve como um proxy para a confiabilidade do modelo. Experimentos com modelos orientados e não orientados para raciocínio revelam três descobertas: (1) o prompting de cadeia de pensamento melhora a coerência narrativa em modelos mais fracos, mas pode reduzir a precisão canônica em modelos mais fortes; (2) a generalização entre versões de um mesmo personagem continua sendo um grande obstáculo; e (3) os modelos frequentemente se destacam em pensar ou agir, mas raramente em ambos. O Beyond One World expõe lacunas críticas na consistência multiversal e no alinhamento de raciocínio, oferecendo uma avaliação desafiadora para LLMs de role-playing.
English
Large language models (LLMs) are increasingly used as role-playing agents,
yet their capacity to faithfully and consistently portray version-specific
characters -- for example, superheroes across comic and cinematic universes --
remains underexplored. Superhero canons such as Marvel and DC provide a rich
testbed: decades of storytelling yield multiple incarnations of the same
character with distinct histories, values, and moral codes. To study this
problem, we introduce Beyond One World, a benchmark for character-grounded
roleplay spanning 30 iconic heroes and 90 canon-specific versions. The
benchmark comprises two tasks: (i) Canon Events, which probes factual recall of
pivotal life stages, and (ii) Moral Dilemmas, which confronts models with
ethically charged scenarios. We score responses for canonical accuracy and
reasoning fidelity under a framework that separates internal deliberation
("thinking") from outward decisions ("acting"). We further propose Think-Act
Matching, a metric that quantifies alignment between reasons and actions and
serves as a proxy for model trustworthiness. Experiments across reasoning- and
non-reasoning-oriented models yield three findings: (1) chain-of-thought
prompting improves narrative coherence in weaker models but can reduce
canonical accuracy in stronger ones; (2) cross-version generalization within a
character remains a major obstacle; and (3) models often excel at either
thinking or acting, but rarely both. Beyond One World exposes critical gaps in
multiversal consistency and reasoning alignment, offering a challenging
evaluation for role-playing LLMs.