GameplayQA : Un Cadre de Benchmark pour la Compréhension Multi-Vidéo Synchronisée en POV Dense en Décisions d'Agents Virtuels 3D

Résumé

Les modèles linguistiques multimodaux (MLLM) sont de plus en plus déployés comme épines dorsales perceptives pour les agents autonomes évoluant dans des environnements 3D, allant de la robotique aux mondes virtuels. Ces applications exigent que les agents perçoivent les changements rapides d'état, attribuent les actions aux bonnes entités et raisonnent sur les comportements multi-agents concurrents depuis une perspective à la première personne, des capacités que les benchmarks existants n'évaluent pas de manière adéquate. Nous présentons GameplayQA, un cadre pour évaluer la perception et le raisonnement centrés sur l'agentivité via la compréhension vidéo. Concrètement, nous annotons densément des vidéos de jeu 3D multijoueur à raison de 1,22 label/seconde, avec des légendes synchronisées dans le temps et concurrentes décrivant les états, les actions et les événements, structurées autour d'un système triadique : Soi, Autres Agents et le Monde, une décomposition naturelle pour les environnements multi-agents. À partir de ces annotations, nous avons affiné 2,4 paires de questions-réponses diagnostiques organisées en trois niveaux de complexité cognitive, accompagnées d'une taxonomie structurée de distracteurs permettant une analyse fine des situations où les modèles hallucinent. L'évaluation des MLLM de pointe révèle un écart substantiel par rapport aux performances humaines, avec des échecs courants dans l'ancrage temporel et inter-vidéos, l'attribution des rôles des agents et la gestion de la densité décisionnelle du jeu. Nous espérons que GameplayQA stimulera les recherches futures à l'intersection de l'IA incarnée, de la perception agentique et de la modélisation du monde.

English

Multimodal LLMs are increasingly deployed as perceptual backbones for autonomous agents in 3D environments, from robotics to virtual worlds. These applications require agents to perceive rapid state changes, attribute actions to the correct entities, and reason about concurrent multi-agent behaviors from a first-person perspective, capabilities that existing benchmarks do not adequately evaluate. We introduce GameplayQA, a framework for evaluating agentic-centric perception and reasoning through video understanding. Specifically, we densely annotate multiplayer 3D gameplay videos at 1.22 labels/second, with time-synced, concurrent captions of states, actions, and events structured around a triadic system of Self, Other Agents, and the World, a natural decomposition for multi-agent environments. From these annotations, we refined 2.4K diagnostic QA pairs organized into three levels of cognitive complexity, accompanied by a structured distractor taxonomy that enables fine-grained analysis of where models hallucinate. Evaluation of frontier MLLMs reveals a substantial gap from human performance, with common failures in temporal and cross-video grounding, agent-role attribution, and handling the decision density of the game. We hope GameplayQA stimulates future research at the intersection of embodied AI, agentic perception, and world modeling.

GameplayQA : Un Cadre de Benchmark pour la Compréhension Multi-Vidéo Synchronisée en POV Dense en Décisions d'Agents Virtuels 3D

GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

Résumé

Support