GameWorld: Verso una Valutazione Standardizzata e Verificabile degli Agenti di Gioco Multimodali

Abstract

Verso un agente generalista incorporato per l'interazione nel mondo reale, i modelli linguistici multimodali di grandi dimensioni (MLLM) come agenti continuano a soffrire di latenza problematica, feedback sporadico ed errori irreversibili. I videogiochi offrono un banco di prova ideale con osservazioni visive ricche e interazioni a ciclo chiuso, che richiedono percezione fine, pianificazione a lungo termine e controllo preciso. Tuttavia, la valutazione sistematica di queste capacità è attualmente ostacolata da interfacce d'azione eterogenee e verifica euristica. A tal fine, introduciamo GameWorld, un benchmark progettato per la valutazione standardizzata e verificabile degli MLLM come agenti di gioco generalisti in ambienti browser. Vengono studiate due interfacce per agenti di gioco: (i) agenti di uso computerizzato che emettono direttamente controlli da tastiera e mouse, e (ii) agenti multimodali generalisti che agiscono in uno spazio d'azione semantico tramite analisi semantica delle azioni deterministica. GameWorld contiene 34 giochi diversificati e 170 compiti, ciascuno abbinato a metriche verificabili dello stato per una valutazione basata sui risultati. I risultati ottenuti su 18 coppie modello-interfaccia suggeriscono che anche l'agente con le migliori prestazioni è ben lontano dal raggiungere le capacità umane nei videogiochi. Esperimenti estensivi con ripetute riesecuzioni complete del benchmark dimostrano la robustezza dello stesso, mentre ulteriori studi sull'interazione in tempo reale, sulla sensibilità alla memoria contestuale e sulla validità delle azioni rivelano ulteriori sfide future per gli agenti di gioco. Nel complesso, offrendo un framework di valutazione standardizzato, verificabile e riproducibile, GameWorld getta solide basi per far avanzare la ricerca sugli agenti di gioco multimodali e oltre. La pagina del progetto è all'indirizzo https://gameworld-bench.github.io.

English

Towards an embodied generalist for real-world interaction, Multimodal Large Language Model (MLLM) agents still suffer from challenging latency, sparse feedback, and irreversible mistakes. Video games offer an ideal testbed with rich visual observations and closed-loop interaction, demanding fine-grained perception, long-horizon planning, and precise control. However, systematically evaluating these capabilities is currently hindered by heterogeneous action interfaces and heuristic verification. To this end, we introduce GameWorld, a benchmark designed for standardized and verifiable evaluation of MLLMs as generalist game agents in browser environments. Two game agent interfaces are studied: (i) computer-use agents that directly emit keyboard and mouse controls, and (ii) generalist multimodal agents that act in a semantic action space via deterministic Semantic Action Parsing. GameWorld contains 34 diverse games and 170 tasks, each paired with state-verifiable metrics for outcome-based evaluation. The results across 18 model-interface pairs suggest that even the best performing agent is far from achieving human capabilities on video games. Extensive experiments of repeated full-benchmark reruns demonstrate the robustness of the benchmark, while further studies on real-time interaction, context-memory sensitivity, and action validity expose more challenges ahead for game agents. Together, by offering a standardized, verifiable, and reproducible evaluation framework, GameWorld lays a robust foundation for advancing research on multimodal game agents and beyond. The project page is at https://gameworld-bench.github.io.

GameWorld: Verso una Valutazione Standardizzata e Verificabile degli Agenti di Gioco Multimodali

GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Abstract

Support