GameWorld: 다중 모달 게임 에이전트 평가의 표준화 및 검증 가능성 향상을 위한 프레임워크
GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents
April 8, 2026
저자: Mingyu Ouyang, Siyuan Hu, Kevin Qinghong Lin, Hwee Tou Ng, Mike Zheng Shou
cs.AI
초록
실세계 상호작용을 위한 구체화된 일반 지능체로 나아가는 과정에서, 멀티모달 대규모 언어 모델(MLLM) 에이전트는 여전히 높은 지연 시간, 희소한 피드백, 되돌릴 수 없는 실패와 같은 도전 과제에 직면해 있습니다. 비디오 게임은 풍부한 시각 관측과 폐루프 상호작용을 제공하며, 세밀한 인식, 장기적 계획 수립, 정밀한 제어를 요구하므로 이상적인 테스트베드 역할을 합니다. 그러나 이러한 능력을 체계적으로 평가하는 것은 현재 이기종 액션 인터페이스와 휴리스틱 검증 방식으로 인해 어려움을 겪고 있습니다. 이를 위해 우리는 브라우저 환경에서 MLLM을 일반적인 게임 에이전트로 표준화되고 검증 가능하게 평가하기 위해 설계된 벤치마크인 GameWorld를 소개합니다. 두 가지 게임 에이전트 인터페이스를 연구했습니다: (i) 키보드와 마우스 제어를 직접 출력하는 컴퓨터 사용 에이전트, (ii) 결정론적 의미론적 액션 파싱을 통해 의미론적 액션 공간에서 행동하는 일반 멀티모달 에이전트. GameWorld는 34개의 다양한 게임과 170개의 과제를 포함하며, 각 과제는 결과 기반 평가를 위한 상태 검증 가능 지표와 쌍을 이룹니다. 18개의 모델-인터페이스 쌍에 대한 결과는 최고 성능의 에이전트조차도 비디오 게임에서 인간의 능력을 달성하는 것과는 거리가 멀다는 것을 시사합니다. 반복된 전체 벤치마크 재실행을 통한 광범위한 실험은 벤치마크의 견고함을 입증하는 한편, 실시간 상호작용, 컨텍스트-메모리 민감도, 액션 유효성에 대한 추가 연구는 게임 에이전트를 위한 더 많은 도전 과제를 드러냅니다. 종합적으로, 표준화되고 검증 가능하며 재현 가능한 평가 프레임워크를 제공함으로써 GameWorld는 멀티모달 게임 에이전트 및 그 이상의 연구 발전을 위한 견고한 기반을 마련합니다. 프로젝트 페이지는 https://gameworld-bench.github.io 에서 확인할 수 있습니다.
English
Towards an embodied generalist for real-world interaction, Multimodal Large Language Model (MLLM) agents still suffer from challenging latency, sparse feedback, and irreversible mistakes. Video games offer an ideal testbed with rich visual observations and closed-loop interaction, demanding fine-grained perception, long-horizon planning, and precise control. However, systematically evaluating these capabilities is currently hindered by heterogeneous action interfaces and heuristic verification. To this end, we introduce GameWorld, a benchmark designed for standardized and verifiable evaluation of MLLMs as generalist game agents in browser environments. Two game agent interfaces are studied: (i) computer-use agents that directly emit keyboard and mouse controls, and (ii) generalist multimodal agents that act in a semantic action space via deterministic Semantic Action Parsing. GameWorld contains 34 diverse games and 170 tasks, each paired with state-verifiable metrics for outcome-based evaluation. The results across 18 model-interface pairs suggest that even the best performing agent is far from achieving human capabilities on video games. Extensive experiments of repeated full-benchmark reruns demonstrate the robustness of the benchmark, while further studies on real-time interaction, context-memory sensitivity, and action validity expose more challenges ahead for game agents. Together, by offering a standardized, verifiable, and reproducible evaluation framework, GameWorld lays a robust foundation for advancing research on multimodal game agents and beyond. The project page is at https://gameworld-bench.github.io.