GameWorld: К стандартизированной и проверяемой оценке мультимодальных игровых агентов

Аннотация

В стремлении к воплощённому универсальному агенту для взаимодействия с реальным миром мультимодальные большие языковые модели (МБЯМ) по-прежнему сталкиваются с проблемами высокой задержки, разреженной обратной связи и необратимыми ошибками. Видеоигры предлагают идеальный полигон с богатыми визуальными наблюдениями и замкнутым циклом взаимодействия, требующим тонкого восприятия, долгосрочного планирования и точного управления. Однако систематическая оценка этих способностей в настоящее время затруднена из-за неоднородных интерфейсов действий и эвристической верификации. Для решения этой проблемы мы представляем GameWorld — бенчмарк, предназначенный для стандартизированной и проверяемой оценки МБЯМ в качестве универсальных игровых агентов в браузерных средах. Изучаются два интерфейса игрового агента: (i) агенты, использующие компьютер, которые непосредственно генерируют управление клавиатурой и мышью, и (ii) универсальные мультимодальные агенты, которые действуют в семантическом пространстве действий с помощью детерминированного семантического парсинга действий. GameWorld содержит 34 разнообразные игры и 170 задач, каждая из которых снабжена проверяемыми метриками состояния для оценки по результату. Результаты, полученные для 18 пар «модель-интерфейс», свидетельствуют о том, что даже лучший агент ещё далёк от достижения человеческих возможностей в видеоиграх. Масштабные эксперименты с повторными прогонами всего бенчмарка демонстрируют его устойчивость, в то время как дальнейшие исследования в области взаимодействия в реальном времени, чувствительности к контекстуальной памяти и валидности действий выявляют дополнительные проблемы для игровых агентов. Таким образом, предлагая стандартизированную, проверяемую и воспроизводимую систему оценки, GameWorld закладывает прочную основу для продвижения исследований в области мультимодальных игровых агентов и не только. Страница проекта находится по адресу https://gameworld-bench.github.io.

English

Towards an embodied generalist for real-world interaction, Multimodal Large Language Model (MLLM) agents still suffer from challenging latency, sparse feedback, and irreversible mistakes. Video games offer an ideal testbed with rich visual observations and closed-loop interaction, demanding fine-grained perception, long-horizon planning, and precise control. However, systematically evaluating these capabilities is currently hindered by heterogeneous action interfaces and heuristic verification. To this end, we introduce GameWorld, a benchmark designed for standardized and verifiable evaluation of MLLMs as generalist game agents in browser environments. Two game agent interfaces are studied: (i) computer-use agents that directly emit keyboard and mouse controls, and (ii) generalist multimodal agents that act in a semantic action space via deterministic Semantic Action Parsing. GameWorld contains 34 diverse games and 170 tasks, each paired with state-verifiable metrics for outcome-based evaluation. The results across 18 model-interface pairs suggest that even the best performing agent is far from achieving human capabilities on video games. Extensive experiments of repeated full-benchmark reruns demonstrate the robustness of the benchmark, while further studies on real-time interaction, context-memory sensitivity, and action validity expose more challenges ahead for game agents. Together, by offering a standardized, verifiable, and reproducible evaluation framework, GameWorld lays a robust foundation for advancing research on multimodal game agents and beyond. The project page is at https://gameworld-bench.github.io.

GameWorld: К стандартизированной и проверяемой оценке мультимодальных игровых агентов

GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Аннотация

Support