GameWorld: Op weg naar gestandaardiseerde en verifieerbare evaluatie van multimodale game-agents

Samenvatting

Op weg naar een belichaamde generalist voor real-world interactie kampen Multimodale Taalmodellen (MLLM) als agenten nog steeds met uitdagende latentie, schaarse feedback en onomkeerbare fouten. Videogames bieden een ideale testomgeving met rijke visuele observaties en gesloten-lus interactie, die fijnmazige perceptie, planning op lange termijn en precieze controle vereisen. Het systematisch evalueren van deze capaciteiten wordt echter momenteel belemmerd door heterogene actie-interfaces en heuristische verificatie. Daartoe introduceren wij GameWorld, een benchmark ontworpen voor gestandaardiseerde en verifieerbare evaluatie van MLLM's als generalistische game-agenten in browseromgevingen. Twee game-agentinterfaces worden bestudeerd: (i) computergebruik-agenten die direct toetsenbord- en muisbedieningen uitzenden, en (ii) generalistische multimodale agenten die handelen in een semantische actieruimte via deterministische Semantische Actieparsing. GameWorld bevat 34 diverse games en 170 taken, elk gekoppeld aan staat-verifieerbare metrieken voor resultaatgerichte evaluatie. De resultaten over 18 model-interfaceparen suggereren dat zelfs de best presterende agent ver verwijderd is van het bereiken van menselijke capaciteiten in videogames. Uitgebreide experimenten met herhaalde volledige benchmark-herhalingen tonen de robuustheid van de benchmark aan, terwijl verdere studies naar real-time interactie, context-geheugengevoeligheid en actiegeldigheid meer uitdagingen blootleggen voor game-agenten. Samen, door het bieden van een gestandaardiseerd, verifieerbaar en reproduceerbaar evaluatieraamwerk, legt GameWorld een robuuste basis voor het bevorderen van onderzoek naar multimodale game-agenten en daarbuiten. De projectpagina is te vinden op https://gameworld-bench.github.io.

English

Towards an embodied generalist for real-world interaction, Multimodal Large Language Model (MLLM) agents still suffer from challenging latency, sparse feedback, and irreversible mistakes. Video games offer an ideal testbed with rich visual observations and closed-loop interaction, demanding fine-grained perception, long-horizon planning, and precise control. However, systematically evaluating these capabilities is currently hindered by heterogeneous action interfaces and heuristic verification. To this end, we introduce GameWorld, a benchmark designed for standardized and verifiable evaluation of MLLMs as generalist game agents in browser environments. Two game agent interfaces are studied: (i) computer-use agents that directly emit keyboard and mouse controls, and (ii) generalist multimodal agents that act in a semantic action space via deterministic Semantic Action Parsing. GameWorld contains 34 diverse games and 170 tasks, each paired with state-verifiable metrics for outcome-based evaluation. The results across 18 model-interface pairs suggest that even the best performing agent is far from achieving human capabilities on video games. Extensive experiments of repeated full-benchmark reruns demonstrate the robustness of the benchmark, while further studies on real-time interaction, context-memory sensitivity, and action validity expose more challenges ahead for game agents. Together, by offering a standardized, verifiable, and reproducible evaluation framework, GameWorld lays a robust foundation for advancing research on multimodal game agents and beyond. The project page is at https://gameworld-bench.github.io.

GameWorld: Op weg naar gestandaardiseerde en verifieerbare evaluatie van multimodale game-agents

GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Samenvatting

Support