GameplayQA: Ein Benchmarking-Framework für entscheidungsintensives, perspektivensynchrones Multivideo-Verständnis von 3D-Virtual Agents

Zusammenfassung

Multimodale LLMs werden zunehmend als perzeptive Rückgrade für autonome Agenten in 3D-Umgebungen eingesetzt, von der Robotik bis hin zu virtuellen Welten. Diese Anwendungen erfordern, dass Agenten schnelle Zustandsänderungen wahrnehmen, Aktionen den richtigen Entitäten zuordnen und über gleichzeitige Multi-Agenten-Verhaltensweisen aus einer Egoperspektive schlussfolgern – Fähigkeiten, die von bestehenden Benchmarks nicht angemessen bewertet werden. Wir stellen GameplayQA vor, einen Rahmen zur Bewertung agentenzentrierter Wahrnehmung und Schlussfolgerung durch Videoverständnis. Konkret annotieren wir Multiplayer-3D-Gameplay-Videos dicht mit 1,22 Labels/Sekunde, mit zeitsynchronen, gleichzeitigen Beschreibungen von Zuständen, Aktionen und Ereignissen, die um ein triadisches System von Selbst, Anderen Agenten und der Welt strukturiert sind – eine natürliche Zerlegung für Multi-Agenten-Umgebungen. Aus diesen Annotationen haben wir 2.400 diagnostische QA-Paare verfeinert, die in drei Stufen kognitiver Komplexität organisiert sind, begleitet von einer strukturierten Taxonomie von Ablenkern, die eine feingranulare Analyse ermöglicht, wo Modelle halluzinieren. Die Evaluierung führender MLLMs zeigt eine erhebliche Lücke zur menschlichen Leistung, mit häufigen Fehlern bei der zeitlichen und videoübergreifenden Verankerung, der Agenten-Rollen-Zuordnung und der Bewältigung der Entscheidungsdichte des Spiels. Wir hoffen, dass GameplayQA zukünftige Forschung an der Schnittstelle von verkörpertem KI, agentischer Wahrnehmung und Weltmodellierung anregt.

English

Multimodal LLMs are increasingly deployed as perceptual backbones for autonomous agents in 3D environments, from robotics to virtual worlds. These applications require agents to perceive rapid state changes, attribute actions to the correct entities, and reason about concurrent multi-agent behaviors from a first-person perspective, capabilities that existing benchmarks do not adequately evaluate. We introduce GameplayQA, a framework for evaluating agentic-centric perception and reasoning through video understanding. Specifically, we densely annotate multiplayer 3D gameplay videos at 1.22 labels/second, with time-synced, concurrent captions of states, actions, and events structured around a triadic system of Self, Other Agents, and the World, a natural decomposition for multi-agent environments. From these annotations, we refined 2.4K diagnostic QA pairs organized into three levels of cognitive complexity, accompanied by a structured distractor taxonomy that enables fine-grained analysis of where models hallucinate. Evaluation of frontier MLLMs reveals a substantial gap from human performance, with common failures in temporal and cross-video grounding, agent-role attribution, and handling the decision density of the game. We hope GameplayQA stimulates future research at the intersection of embodied AI, agentic perception, and world modeling.

GameplayQA: Ein Benchmarking-Framework für entscheidungsintensives, perspektivensynchrones Multivideo-Verständnis von 3D-Virtual Agents

GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

Zusammenfassung

Support