GameWorld : Vers une évaluation standardisée et vérifiable des agents de jeu multimodaux

Résumé

Vers un agent généraliste incarné pour l'interaction en monde réel, les modèles de langage multimodaux (MLLM) souffrent encore de latence problématique, de retours d'information sporadiques et d'erreurs irréversibles. Les jeux vidéo constituent un banc d'essai idéal avec des observations visuelles riches et une interaction en boucle fermée, exigeant une perception fine, une planification à long terme et un contrôle précis. Cependant, l'évaluation systématique de ces capacités est actuellement entravée par des interfaces d'action hétérogènes et une vérification heuristique. Pour pallier cela, nous présentons GameWorld, un benchmark conçu pour l'évaluation standardisée et vérifiable des MLLMs en tant qu'agents généralistes dans des environnements de navigateur. Deux interfaces d'agents sont étudiées : (i) les agents d'utilisation informatique qui émettent directement des contrôles clavier/souris, et (ii) les agents multimodaux généralistes qui agissent dans un espace d'action sémantique via un Analyseur d'Actions Sémantiques déterministe. GameWorld contient 34 jeux variés et 170 tâches, chacune associée à des métriques vérifiables par l'état pour une évaluation basée sur les résultats. Les résultats obtenus sur 18 paires modèle-interface suggèrent que même l'agent le plus performant est loin d'égaler les capacités humaines dans les jeux vidéo. Des expériences approfondies avec des réexécutions complètes du benchmark démontrent la robustesse de ce dernier, tandis que des études complémentaires sur l'interaction en temps réel, la sensibilité à la mémoire contextuelle et la validité des actions révèlent d'autres défis pour les agents de jeu. En offrant un cadre d'évaluation standardisé, vérifiable et reproductible, GameWorld pose une base solide pour faire progresser la recherche sur les agents de jeu multimodaux et au-delà. La page du projet est disponible à l'adresse https://gameworld-bench.github.io.

English

Towards an embodied generalist for real-world interaction, Multimodal Large Language Model (MLLM) agents still suffer from challenging latency, sparse feedback, and irreversible mistakes. Video games offer an ideal testbed with rich visual observations and closed-loop interaction, demanding fine-grained perception, long-horizon planning, and precise control. However, systematically evaluating these capabilities is currently hindered by heterogeneous action interfaces and heuristic verification. To this end, we introduce GameWorld, a benchmark designed for standardized and verifiable evaluation of MLLMs as generalist game agents in browser environments. Two game agent interfaces are studied: (i) computer-use agents that directly emit keyboard and mouse controls, and (ii) generalist multimodal agents that act in a semantic action space via deterministic Semantic Action Parsing. GameWorld contains 34 diverse games and 170 tasks, each paired with state-verifiable metrics for outcome-based evaluation. The results across 18 model-interface pairs suggest that even the best performing agent is far from achieving human capabilities on video games. Extensive experiments of repeated full-benchmark reruns demonstrate the robustness of the benchmark, while further studies on real-time interaction, context-memory sensitivity, and action validity expose more challenges ahead for game agents. Together, by offering a standardized, verifiable, and reproducible evaluation framework, GameWorld lays a robust foundation for advancing research on multimodal game agents and beyond. The project page is at https://gameworld-bench.github.io.

GameWorld : Vers une évaluation standardisée et vérifiable des agents de jeu multimodaux

GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Résumé

Support