GameWorld: Rumo à Avaliação Padronizada e Verificável de Agentes de Jogo Multimodais

Resumo

Rumo a um agente generalista incorporado para interação no mundo real, os agentes de Modelos de Linguagem Multimodal (MLLMs) ainda sofrem com latência desafiadora, feedback esparso e erros irreversíveis. Os videojogos oferecem um ambiente de teste ideal com observações visuais ricas e interação em circuito fechado, exigindo perceção de granularidade finita, planeamento de longo horizonte e controlo preciso. No entanto, a avaliação sistemática destas capacidades é atualmente dificultada por interfaces de ação heterogéneas e verificação heurística. Para tal, introduzimos o GameWorld, um benchmark concebido para a avaliação padronizada e verificável de MLLMs como agentes generalistas de jogos em ambientes de navegador. São estudadas duas interfaces de agentes de jogo: (i) agentes de uso de computador que emitem diretamente controlos de teclado e rato, e (ii) agentes multimodais generalistas que atuam num espaço de ação semântica através de Análise Semântica de Ação determinística. O GameWorld contém 34 jogos diversificados e 170 tarefas, cada um emparelhado com métricas verificáveis de estado para avaliação baseada em resultados. Os resultados em 18 pares modelo-interface sugerem que mesmo o agente com melhor desempenho está longe de alcançar capacidades humanas em videojogos. Experiências extensivas de repetições completas do benchmark demonstram a robustez da avaliação, enquanto estudos adicionais sobre interação em tempo real, sensibilidade da memória contextual e validade da ação expõem mais desafios pela frente para os agentes de jogo. Em conjunto, ao oferecer um quadro de avaliação padronizado, verificável e reproduzível, o GameWorld estabelece uma base robusta para avançar a investigação sobre agentes multimodais de jogos e além. A página do projeto está em https://gameworld-bench.github.io.

English

Towards an embodied generalist for real-world interaction, Multimodal Large Language Model (MLLM) agents still suffer from challenging latency, sparse feedback, and irreversible mistakes. Video games offer an ideal testbed with rich visual observations and closed-loop interaction, demanding fine-grained perception, long-horizon planning, and precise control. However, systematically evaluating these capabilities is currently hindered by heterogeneous action interfaces and heuristic verification. To this end, we introduce GameWorld, a benchmark designed for standardized and verifiable evaluation of MLLMs as generalist game agents in browser environments. Two game agent interfaces are studied: (i) computer-use agents that directly emit keyboard and mouse controls, and (ii) generalist multimodal agents that act in a semantic action space via deterministic Semantic Action Parsing. GameWorld contains 34 diverse games and 170 tasks, each paired with state-verifiable metrics for outcome-based evaluation. The results across 18 model-interface pairs suggest that even the best performing agent is far from achieving human capabilities on video games. Extensive experiments of repeated full-benchmark reruns demonstrate the robustness of the benchmark, while further studies on real-time interaction, context-memory sensitivity, and action validity expose more challenges ahead for game agents. Together, by offering a standardized, verifiable, and reproducible evaluation framework, GameWorld lays a robust foundation for advancing research on multimodal game agents and beyond. The project page is at https://gameworld-bench.github.io.

GameWorld: Rumo à Avaliação Padronizada e Verificável de Agentes de Jogo Multimodais

GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Resumo

Support