За пределами одного мира: бенчмаркинг супергероев в ролевых играх в мультивселенских контекстах

Аннотация

Крупные языковые модели (LLM) всё чаще используются в качестве агентов, играющих роли, однако их способность достоверно и последовательно воплощать версии персонажей — например, супергероев из комиксов и кинематографических вселенных — остаётся недостаточно изученной. Каноны супергероев, такие как Marvel и DC, предоставляют богатую почву для исследований: десятилетия повествования породили множество воплощений одного и того же персонажа с уникальными историями, ценностями и моральными принципами. Для изучения этой проблемы мы представляем Beyond One World — эталонный набор данных для ролевой игры, основанной на персонажах, охватывающий 30 культовых героев и 90 их канонических версий. Набор включает две задачи: (i) Canon Events, проверяющую фактологическое воспроизведение ключевых этапов жизни, и (ii) Moral Dilemmas, ставящую модели перед этически сложными сценариями. Мы оцениваем ответы на предмет канонической точности и достоверности рассуждений в рамках подхода, разделяющего внутренние размышления ("мышление") и внешние решения ("действия"). Мы также предлагаем метрику Think-Act Matching, которая количественно оценивает соответствие между причинами и действиями и служит индикатором доверия к модели. Эксперименты с моделями, ориентированными и не ориентированными на рассуждения, выявили три ключевых результата: (1) цепочка рассуждений (chain-of-thought prompting) улучшает нарративную согласованность в менее мощных моделях, но может снижать каноническую точность в более сильных; (2) обобщение между версиями одного персонажа остаётся серьёзным препятствием; (3) модели часто преуспевают либо в "мышлении", либо в "действиях", но редко в обоих аспектах одновременно. Beyond One World выявляет критические пробелы в мультивселенской согласованности и согласованности рассуждений, предлагая сложный эталон для оценки ролевых LLM.

English

Large language models (LLMs) are increasingly used as role-playing agents, yet their capacity to faithfully and consistently portray version-specific characters -- for example, superheroes across comic and cinematic universes -- remains underexplored. Superhero canons such as Marvel and DC provide a rich testbed: decades of storytelling yield multiple incarnations of the same character with distinct histories, values, and moral codes. To study this problem, we introduce Beyond One World, a benchmark for character-grounded roleplay spanning 30 iconic heroes and 90 canon-specific versions. The benchmark comprises two tasks: (i) Canon Events, which probes factual recall of pivotal life stages, and (ii) Moral Dilemmas, which confronts models with ethically charged scenarios. We score responses for canonical accuracy and reasoning fidelity under a framework that separates internal deliberation ("thinking") from outward decisions ("acting"). We further propose Think-Act Matching, a metric that quantifies alignment between reasons and actions and serves as a proxy for model trustworthiness. Experiments across reasoning- and non-reasoning-oriented models yield three findings: (1) chain-of-thought prompting improves narrative coherence in weaker models but can reduce canonical accuracy in stronger ones; (2) cross-version generalization within a character remains a major obstacle; and (3) models often excel at either thinking or acting, but rarely both. Beyond One World exposes critical gaps in multiversal consistency and reasoning alignment, offering a challenging evaluation for role-playing LLMs.

За пределами одного мира: бенчмаркинг супергероев в ролевых играх в мультивселенских контекстах

Beyond One World: Benchmarking Super Heros in Role-Playing Across Multiversal Contexts

Аннотация

Support