GameplayQA: Фреймворк для оценки понимания 3D-виртуальных агентов в условиях плотных решений на основе синхронизированных с точкой обзора мультивидео

Аннотация

Мультимодальные большие языковые модели (МБЯМ) все чаще используются в качестве перцепционных основ для автономных агентов в 3D-средах — от робототехники до виртуальных миров. Такие приложения требуют от агентов способности воспринимать быстрые изменения состояний, корректно атрибутировать действия соответствующим сущностям и анализировать параллельное поведение множества агентов с точки зрения первого лица — возможности, которые существующие бенчмарки не оценивают в достаточной мере. Мы представляем GameplayQA — фреймворк для оценки агенто-ориентированного восприятия и логического вывода через понимание видео. В частности, мы проводим плотную разметку видеозаписей геймплея в многопользовательских 3D-играх с частотой 1.22 метки в секунду, используя синхронизированные по времени параллельные описания состояний, действий и событий, структурированные вокруг триадической системы «Я», «Другие агенты» и «Мир» — естественного способа декомпозиции для многопользовательских сред. На основе этих аннотаций мы создали 2.4 тыс. диагностических вопросно-ответных пар, организованных по трем уровням когнитивной сложности, а также таксономию структурированных дистракторов, которая позволяет проводить детальный анализ случаев галлюцинаций моделей. Оценка передовых МБЯМ выявила значительный разрыв с человеческими показателями, при этом типичные ошибки касаются временной и кросс-видео привязки, атрибуции ролей агентов и обработки плотности принятия решений в игре. Мы надеемся, что GameplayQA стимулирует будущие исследования на стыке воплощенного ИИ, агентного восприятия и моделирования мира.

English

Multimodal LLMs are increasingly deployed as perceptual backbones for autonomous agents in 3D environments, from robotics to virtual worlds. These applications require agents to perceive rapid state changes, attribute actions to the correct entities, and reason about concurrent multi-agent behaviors from a first-person perspective, capabilities that existing benchmarks do not adequately evaluate. We introduce GameplayQA, a framework for evaluating agentic-centric perception and reasoning through video understanding. Specifically, we densely annotate multiplayer 3D gameplay videos at 1.22 labels/second, with time-synced, concurrent captions of states, actions, and events structured around a triadic system of Self, Other Agents, and the World, a natural decomposition for multi-agent environments. From these annotations, we refined 2.4K diagnostic QA pairs organized into three levels of cognitive complexity, accompanied by a structured distractor taxonomy that enables fine-grained analysis of where models hallucinate. Evaluation of frontier MLLMs reveals a substantial gap from human performance, with common failures in temporal and cross-video grounding, agent-role attribution, and handling the decision density of the game. We hope GameplayQA stimulates future research at the intersection of embodied AI, agentic perception, and world modeling.

GameplayQA: Фреймворк для оценки понимания 3D-виртуальных агентов в условиях плотных решений на основе синхронизированных с точкой обзора мультивидео

GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

Аннотация

Support