ChatPaper.aiChatPaper

TowerMind: Обучающая среда и бенчмарк для стратегических игр типа Tower Defence, предназначенные для тестирования языковых моделей в роли агентов

TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents

January 9, 2026
Авторы: Dawei Wang, Chengming Zhou, Di Zhao, Xinyuan Liu, Marci Chi Ma, Gary Ushaw, Richard Davison
cs.AI

Аннотация

Последние прорывы в области больших языковых моделей (LLM) позиционируют их как перспективную парадигму для создания агентов, где долгосрочное планирование и принятие решений становятся ключевыми универсальными способностями для адаптации к различным сценариям и задачам. Стратегии в реальном времени (RTS) служат идеальным полигоном для оценки этих двух способностей, поскольку их игровой процесс требует как стратегического планирования на макроуровне, так и тактической адаптации и выполнения действий на микроуровне. Существующие среды на основе RTS-игр либо обладают относительно высокими вычислительными требованиями, либо не поддерживают текстовые наблюдения, что ограничивало их использование для оценки LLM. Мотивированные этим, мы представляем TowerMind — новую среду, основанную на поджанре RTS "защита башни" (tower defense, TD). TowerMind сохраняет ключевые преимущества RTS-игр для оценки LLM, отличаясь при этом низкими вычислительными требованиями и многомодальным пространством наблюдений, включая пиксельные, текстовые и структурированные представления игрового состояния. Кроме того, TowerMind поддерживает оценку галлюцинаций модели и предоставляет высокую степень настраиваемости. Мы разработали пять тестовых уровней для оценки нескольких широко используемых LLM в условиях различного многомодального ввода. Результаты выявляют четкий разрыв в производительности между LLM и человеком-экспертом как по способностям, так и по склонности к галлюцинациям. Эксперименты также подчеркивают ключевые ограничения в поведении LLM, такие как недостаточная проверка планов, отсутствие мультифинальности в принятии решений и неэффективное использование действий. Мы также оценили два классических алгоритма обучения с подкреплением: Ape-X DQN и PPO. Благодаря облегченному и многомодальному дизайну, TowerMind дополняет существующий ландшафт сред на основе RTS и представляет новый эталон для области ИИ-агентов. Исходный код общедоступен на GitHub (https://github.com/tb6147877/TowerMind).
English
Recent breakthroughs in Large Language Models (LLMs) have positioned them as a promising paradigm for agents, with long-term planning and decision-making emerging as core general-purpose capabilities for adapting to diverse scenarios and tasks. Real-time strategy (RTS) games serve as an ideal testbed for evaluating these two capabilities, as their inherent gameplay requires both macro-level strategic planning and micro-level tactical adaptation and action execution. Existing RTS game-based environments either suffer from relatively high computational demands or lack support for textual observations, which has constrained the use of RTS games for LLM evaluation. Motivated by this, we present TowerMind, a novel environment grounded in the tower defense (TD) subgenre of RTS games. TowerMind preserves the key evaluation strengths of RTS games for assessing LLMs, while featuring low computational demands and a multimodal observation space, including pixel-based, textual, and structured game-state representations. In addition, TowerMind supports the evaluation of model hallucination and provides a high degree of customizability. We design five benchmark levels to evaluate several widely used LLMs under different multimodal input settings. The results reveal a clear performance gap between LLMs and human experts across both capability and hallucination dimensions. The experiments further highlight key limitations in LLM behavior, such as inadequate planning validation, a lack of multifinality in decision-making, and inefficient action use. We also evaluate two classic reinforcement learning algorithms: Ape-X DQN and PPO. By offering a lightweight and multimodal design, TowerMind complements the existing RTS game-based environment landscape and introduces a new benchmark for the AI agent field. The source code is publicly available on GitHub(https://github.com/tb6147877/TowerMind).
PDF11January 13, 2026