GameplayQA: Uma Estrutura de Avaliação para a Compreensão de Agentes Virtuais 3D em Múltiplos Vídeos Sincronizados em Primeira Pessoa com Alta Densidade Decisória

Resumo

Os modelos de linguagem multimodal (MLLMs) estão sendo cada vez mais implantados como núcleos de percepção para agentes autônomos em ambientes 3D, desde a robótica até mundos virtuais. Essas aplicações exigem que os agentes percebam mudanças rápidas de estado, atribuam ações às entidades corretas e raciocinem sobre comportamentos multiagentes concorrentes a partir de uma perspectiva em primeira pessoa, capacidades que os benchmarks existentes não avaliam adequadamente. Apresentamos o GameplayQA, uma estrutura para avaliar a percepção e o raciocínio centrados na agenticidade por meio da compreensão de vídeo. Especificamente, anotamos densamente vídeos de jogabilidade multijogador em 3D a uma taxa de 1,22 rótulos/segundo, com legendas concorrentes e sincronizadas no tempo de estados, ações e eventos, estruturadas em torno de um sistema triádico do Eu, de Outros Agentes e do Mundo, uma decomposição natural para ambientes multiagentes. A partir dessas anotações, refinamos 2,4 mil pares de perguntas e respostas de diagnóstico organizados em três níveis de complexidade cognitiva, acompanhados por uma taxonomia de distratores estruturada que permite uma análise refinada de onde os modelos alucinam. A avaliação de MLLMs de ponta revela uma lacuna substancial em relação ao desempenho humano, com falhas comuns na ancoragem temporal e entre vídeos, na atribuição de papéis dos agentes e no tratamento da densidade decisional do jogo. Esperamos que o GameplayQA estimule pesquisas futuras na interseção entre IA incorporada, percepção agentiva e modelagem do mundo.

English

Multimodal LLMs are increasingly deployed as perceptual backbones for autonomous agents in 3D environments, from robotics to virtual worlds. These applications require agents to perceive rapid state changes, attribute actions to the correct entities, and reason about concurrent multi-agent behaviors from a first-person perspective, capabilities that existing benchmarks do not adequately evaluate. We introduce GameplayQA, a framework for evaluating agentic-centric perception and reasoning through video understanding. Specifically, we densely annotate multiplayer 3D gameplay videos at 1.22 labels/second, with time-synced, concurrent captions of states, actions, and events structured around a triadic system of Self, Other Agents, and the World, a natural decomposition for multi-agent environments. From these annotations, we refined 2.4K diagnostic QA pairs organized into three levels of cognitive complexity, accompanied by a structured distractor taxonomy that enables fine-grained analysis of where models hallucinate. Evaluation of frontier MLLMs reveals a substantial gap from human performance, with common failures in temporal and cross-video grounding, agent-role attribution, and handling the decision density of the game. We hope GameplayQA stimulates future research at the intersection of embodied AI, agentic perception, and world modeling.

GameplayQA: Uma Estrutura de Avaliação para a Compreensão de Agentes Virtuais 3D em Múltiplos Vídeos Sincronizados em Primeira Pessoa com Alta Densidade Decisória

GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

Resumo

Support