GameplayQA: Un Framework di Benchmarking per la Comprensione di Agenti Virtuali 3D in Video Multipli Sincronizzati dal Punto di Vista e ad Alta Densità Decisionale

Abstract

I modelli linguistici multimodali (MLLM) vengono sempre più impiegati come componenti percettive fondamentali per agenti autonomi in ambienti 3D, dalla robotica ai mondi virtuali. Queste applicazioni richiedono agli agenti di percepire rapidi cambiamenti di stato, attribuire le azioni alle entità corrette e ragionare su comportamenti multi-agente concorrenti da una prospettiva in prima persona, capacità che gli attuali benchmark non valutano adeguatamente. Introduciamo GameplayQA, un framework per valutare la percezione e il ragionamento incentrati sull'agente attraverso la comprensione video. Nello specifico, annotiamo densamente video di gameplay multiplayer 3D con una frequenza di 1,22 etichette al secondo, con didascalie temporizzate e concorrenti di stati, azioni ed eventi strutturate attorno a un sistema triadico di Sé, Altri Agenti e Mondo, una scomposizione naturale per ambienti multi-agente. Da queste annotazioni, abbiamo raffinato 2.400 coppie di domande e risposte diagnostiche organizzate in tre livelli di complessità cognitiva, accompagnate da una tassonomia strutturata di distrattori che consente un'analisi granulare di dove i modelli allucinano. La valutazione di MLLM all'avanguardia rivela un divario sostanziale rispetto alle prestazioni umane, con errori comuni nell'ancoraggio temporale e cross-video, nell'attribuzione dei ruoli degli agenti e nella gestione della densità decisionale del gioco. Speriamo che GameplayQA stimoli future ricerche all'intersezione tra IA incarnata, percezione agentica e modellazione del mondo.

English

Multimodal LLMs are increasingly deployed as perceptual backbones for autonomous agents in 3D environments, from robotics to virtual worlds. These applications require agents to perceive rapid state changes, attribute actions to the correct entities, and reason about concurrent multi-agent behaviors from a first-person perspective, capabilities that existing benchmarks do not adequately evaluate. We introduce GameplayQA, a framework for evaluating agentic-centric perception and reasoning through video understanding. Specifically, we densely annotate multiplayer 3D gameplay videos at 1.22 labels/second, with time-synced, concurrent captions of states, actions, and events structured around a triadic system of Self, Other Agents, and the World, a natural decomposition for multi-agent environments. From these annotations, we refined 2.4K diagnostic QA pairs organized into three levels of cognitive complexity, accompanied by a structured distractor taxonomy that enables fine-grained analysis of where models hallucinate. Evaluation of frontier MLLMs reveals a substantial gap from human performance, with common failures in temporal and cross-video grounding, agent-role attribution, and handling the decision density of the game. We hope GameplayQA stimulates future research at the intersection of embodied AI, agentic perception, and world modeling.

GameplayQA: Un Framework di Benchmarking per la Comprensione di Agenti Virtuali 3D in Video Multipli Sincronizzati dal Punto di Vista e ad Alta Densità Decisionale

GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

Abstract

Support