ChatPaper.aiChatPaper

Más allá de un solo mundo: Evaluación comparativa de superhéroes en juegos de rol a través de contextos multiversales.

Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts

October 16, 2025
Autores: Perapard Ngokpol, Kun Kerdthaisong, Pasin Buakhaw, Pitikorn Khlaisamniang, Supasate Vorathammathorn, Piyalitt Ittichaiwong, Nutchanon Yongsatianchot
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se utilizan cada vez más como agentes de interpretación de roles, aunque su capacidad para representar de manera fiel y consistente personajes específicos de distintas versiones —por ejemplo, superhéroes a través de universos cómicos y cinematográficos— sigue siendo poco explorada. Los cánones de superhéroes como Marvel y DC ofrecen un terreno fértil para la prueba: décadas de narrativa han dado lugar a múltiples encarnaciones del mismo personaje con historias, valores y códigos morales distintos. Para estudiar este problema, presentamos Beyond One World, un punto de referencia para la interpretación de roles basada en personajes que abarca 30 héroes icónicos y 90 versiones específicas de sus cánones. El punto de referencia comprende dos tareas: (i) Eventos Canónicos, que evalúa el recuerdo factual de etapas cruciales de la vida, y (ii) Dilemas Morales, que enfrenta a los modelos con escenarios cargados de ética. Calificamos las respuestas en función de la precisión canónica y la fidelidad del razonamiento bajo un marco que separa la deliberación interna ("pensar") de las decisiones externas ("actuar"). Además, proponemos Think-Act Matching, una métrica que cuantifica la alineación entre razones y acciones y sirve como indicador de la confiabilidad del modelo. Los experimentos realizados con modelos orientados y no orientados al razonamiento arrojan tres hallazgos: (1) el prompting de cadena de pensamiento mejora la coherencia narrativa en modelos más débiles, pero puede reducir la precisión canónica en modelos más fuertes; (2) la generalización entre versiones dentro de un mismo personaje sigue siendo un obstáculo importante; y (3) los modelos suelen destacarse en pensar o actuar, pero rara vez en ambas cosas. Beyond One World expone brechas críticas en la consistencia multiversal y la alineación del razonamiento, ofreciendo una evaluación desafiante para los LLMs de interpretación de roles.
English
Large language models (LLMs) are increasingly used as role-playing agents, yet their capacity to faithfully and consistently portray version-specific characters -- for example, superheroes across comic and cinematic universes -- remains underexplored. Superhero canons such as Marvel and DC provide a rich testbed: decades of storytelling yield multiple incarnations of the same character with distinct histories, values, and moral codes. To study this problem, we introduce Beyond One World, a benchmark for character-grounded roleplay spanning 30 iconic heroes and 90 canon-specific versions. The benchmark comprises two tasks: (i) Canon Events, which probes factual recall of pivotal life stages, and (ii) Moral Dilemmas, which confronts models with ethically charged scenarios. We score responses for canonical accuracy and reasoning fidelity under a framework that separates internal deliberation ("thinking") from outward decisions ("acting"). We further propose Think-Act Matching, a metric that quantifies alignment between reasons and actions and serves as a proxy for model trustworthiness. Experiments across reasoning- and non-reasoning-oriented models yield three findings: (1) chain-of-thought prompting improves narrative coherence in weaker models but can reduce canonical accuracy in stronger ones; (2) cross-version generalization within a character remains a major obstacle; and (3) models often excel at either thinking or acting, but rarely both. Beyond One World exposes critical gaps in multiversal consistency and reasoning alignment, offering a challenging evaluation for role-playing LLMs.
PDF12October 17, 2025