GameplayQA: 3D 가상 에이전트의 의사 결정 집약적 POV 동기화 다중 비디오 이해를 위한 벤치마킹 프레임워크
GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents
March 25, 2026
저자: Yunzhe Wang, Runhui Xu, Kexin Zheng, Tianyi Zhang, Jayavibhav Niranjan Kogundi, Soham Hans, Volkan Ustun
cs.AI
초록
멀티모달 LLM은 로봇공학부터 가상 세계에 이르기까지 3D 환경에서 자율 에이전트의 지각 기반으로 점점 더 많이 활용되고 있습니다. 이러한 응용 분야는 에이전트가 빠른 상태 변화를 인지하고, 행동을 올바른 개체에 귀속시키며, 1인칭 시점에서 동시다발적 다중 에이전트 행동을 추론하는 능력을 요구하는데, 기존 벤치마크는 이러한 능력을 충분히 평가하지 못합니다. 본 연구에서는 비디오 이해를 통한 에이전트 중심 인지 및 추론 능력을 평가하기 위한 프레임워크인 GameplayQA를 소개합니다. 구체적으로, 우리는 다중 에이전트 환경에 자연스러운 분해 체계인 Self(자신), Other Agents(다른 에이전트), World(세계)라는 삼원 체계를 중심으로 상태, 행동, 사건에 대한 시간 동기화된 동시 설명을 초당 1.22개의 레이블 밀도로 멀티플레이어 3D 게임플레이 비디오에 상세하게 주석 처리했습니다. 이러한 주석에서 우리는 인지 복잡성의 세 가지 수준으로 구성된 2,400개의 진단형 QA 쌍을 정제하였으며, 모델이 어디에서 환각을 일으키는지 세분화된 분석을 가능하게 하는 구조화된 방해 요소 분류 체계를 함께 마련했습니다. 최첨단 MLLM 평가 결과, 인간의 성능과는 상당한 격차가 존재하며, 시간적 및 교차 비디오 기반 연결, 에이전트 역할 귀속, 게임의 결정 밀도 처리에서 일반적인 실패가 발생함을 확인했습니다. GameplayQA가 구현형 AI, 에이전트 인지, 세계 모델링의 교차점에 있는 미래 연구를 촉진하기를 기대합니다.
English
Multimodal LLMs are increasingly deployed as perceptual backbones for autonomous agents in 3D environments, from robotics to virtual worlds. These applications require agents to perceive rapid state changes, attribute actions to the correct entities, and reason about concurrent multi-agent behaviors from a first-person perspective, capabilities that existing benchmarks do not adequately evaluate. We introduce GameplayQA, a framework for evaluating agentic-centric perception and reasoning through video understanding. Specifically, we densely annotate multiplayer 3D gameplay videos at 1.22 labels/second, with time-synced, concurrent captions of states, actions, and events structured around a triadic system of Self, Other Agents, and the World, a natural decomposition for multi-agent environments. From these annotations, we refined 2.4K diagnostic QA pairs organized into three levels of cognitive complexity, accompanied by a structured distractor taxonomy that enables fine-grained analysis of where models hallucinate. Evaluation of frontier MLLMs reveals a substantial gap from human performance, with common failures in temporal and cross-video grounding, agent-role attribution, and handling the decision density of the game. We hope GameplayQA stimulates future research at the intersection of embodied AI, agentic perception, and world modeling.