GameplayQA: Un Marco de Referencia para la Evaluación de la Comprensión de Agentes Virtuales 3D en Entornos de Múltiples Videos Sincronizados desde un Punto de Vista con Decisiones Densas

Resumen

Los modelos de lenguaje multimodal (MLLM) se implementan cada vez más como núcleos de percepción para agentes autónomos en entornos 3D, desde la robótica hasta los mundos virtuales. Estas aplicaciones requieren que los agentes perciban cambios rápidos de estado, atribuyan acciones a las entidades correctas y razonen sobre comportamientos multiagente concurrentes desde una perspectiva en primera persona, capacidades que los puntos de referencia existentes no evalúan adecuadamente. Presentamos GameplayQA, un marco para evaluar la percepción y el razonamiento centrados en la agencia a través de la comprensión de video. Específicamente, anotamos densamente videos de juego multijugador en 3D con 1.22 etiquetas/segundo, con descripciones concurrentes y sincronizadas temporalmente de estados, acciones y eventos, estructuradas en torno a un sistema triádico del Yo, Otros Agentes y el Mundo, una descomposición natural para entornos multiagente. A partir de estas anotaciones, refinamos 2.400 pares de preguntas y respuestas de diagnóstico organizados en tres niveles de complejidad cognitiva, acompañados de una taxonomía estructurada de distractores que permite un análisis detallado de dónde alucinan los modelos. La evaluación de MLLMs de vanguardia revela una brecha sustancial con respecto al rendimiento humano, con fallos comunes en la localización temporal y entre videos, la atribución de roles de agente y el manejo de la densidad de decisiones del juego. Esperamos que GameplayQA estimule la investigación futura en la intersección de la IA incorporada, la percepción agentiva y el modelado del mundo.

English

Multimodal LLMs are increasingly deployed as perceptual backbones for autonomous agents in 3D environments, from robotics to virtual worlds. These applications require agents to perceive rapid state changes, attribute actions to the correct entities, and reason about concurrent multi-agent behaviors from a first-person perspective, capabilities that existing benchmarks do not adequately evaluate. We introduce GameplayQA, a framework for evaluating agentic-centric perception and reasoning through video understanding. Specifically, we densely annotate multiplayer 3D gameplay videos at 1.22 labels/second, with time-synced, concurrent captions of states, actions, and events structured around a triadic system of Self, Other Agents, and the World, a natural decomposition for multi-agent environments. From these annotations, we refined 2.4K diagnostic QA pairs organized into three levels of cognitive complexity, accompanied by a structured distractor taxonomy that enables fine-grained analysis of where models hallucinate. Evaluation of frontier MLLMs reveals a substantial gap from human performance, with common failures in temporal and cross-video grounding, agent-role attribution, and handling the decision density of the game. We hope GameplayQA stimulates future research at the intersection of embodied AI, agentic perception, and world modeling.

GameplayQA: Un Marco de Referencia para la Evaluación de la Comprensión de Agentes Virtuales 3D en Entornos de Múltiples Videos Sincronizados desde un Punto de Vista con Decisiones Densas

GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

Resumen

Support