GameWorld: Hacia la Evaluación Estandarizada y Verificable de Agentes de Juego Multimodales

Resumen

Hacia un agente generalista encarnado para la interacción en el mundo real, los agentes de Modelos de Lenguaje Grandes Multimodales (MLLM) aún sufren problemas de latencia desafiante, retroalimentación escasa y errores irreversibles. Los videojuegos ofrecen un banco de pruebas ideal con observaciones visuales ricas e interacción en bucle cerrado, que exige percepción de grano fino, planificación de horizonte largo y control preciso. Sin embargo, la evaluación sistemática de estas capacidades se ve actualmente obstaculizada por interfaces de acción heterogéneas y verificación heurística. Para ello, presentamos GameWorld, un benchmark diseñado para la evaluación estandarizada y verificable de MLLMs como agentes de juego generalistas en entornos de navegador. Se estudian dos interfaces de agente de juego: (i) agentes de uso informático que emiten directamente controles de teclado y ratón, y (ii) agentes multimodales generalistas que actúan en un espacio de acción semántico mediante Análisis de Acción Semántica determinista. GameWorld contiene 34 juegos diversos y 170 tareas, cada una emparejada con métricas verificables por estado para evaluación basada en resultados. Los resultados en 18 pares modelo-interfaz sugieren que incluso el agente con mejor rendimiento está lejos de alcanzar las capacidades humanas en videojuegos. Experimentos extensos con repeticiones completas del benchmark demuestran la robustez de este, mientras que estudios adicionales sobre interacción en tiempo real, sensibilidad a la memoria contextual y validez de la acción exponen más desafíos futuros para los agentes de juego. En conjunto, al ofrecer un marco de evaluación estandarizado, verificable y reproducible, GameWorld sienta una base sólida para avanzar en la investigación sobre agentes de juego multimodales y más allá. La página del proyecto se encuentra en https://gameworld-bench.github.io.

English

Towards an embodied generalist for real-world interaction, Multimodal Large Language Model (MLLM) agents still suffer from challenging latency, sparse feedback, and irreversible mistakes. Video games offer an ideal testbed with rich visual observations and closed-loop interaction, demanding fine-grained perception, long-horizon planning, and precise control. However, systematically evaluating these capabilities is currently hindered by heterogeneous action interfaces and heuristic verification. To this end, we introduce GameWorld, a benchmark designed for standardized and verifiable evaluation of MLLMs as generalist game agents in browser environments. Two game agent interfaces are studied: (i) computer-use agents that directly emit keyboard and mouse controls, and (ii) generalist multimodal agents that act in a semantic action space via deterministic Semantic Action Parsing. GameWorld contains 34 diverse games and 170 tasks, each paired with state-verifiable metrics for outcome-based evaluation. The results across 18 model-interface pairs suggest that even the best performing agent is far from achieving human capabilities on video games. Extensive experiments of repeated full-benchmark reruns demonstrate the robustness of the benchmark, while further studies on real-time interaction, context-memory sensitivity, and action validity expose more challenges ahead for game agents. Together, by offering a standardized, verifiable, and reproducible evaluation framework, GameWorld lays a robust foundation for advancing research on multimodal game agents and beyond. The project page is at https://gameworld-bench.github.io.

GameWorld: Hacia la Evaluación Estandarizada y Verificable de Agentes de Juego Multimodales

GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Resumen

Support