ChatPaper.aiChatPaper

TowerMind: Een Tower Defence Leeromgeving en Benchmark voor LLM's als Agents

TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents

January 9, 2026
Auteurs: Dawei Wang, Chengming Zhou, Di Zhao, Xinyuan Liu, Marci Chi Ma, Gary Ushaw, Richard Davison
cs.AI

Samenvatting

Recente doorbraken in Large Language Models (LLM's) hebben hen naar voren geschoven als een veelbelovend paradigma voor agents, waarbij planning op lange termijn en besluitvorming naar voren komen als kernvaardigheden voor algemene toepassing om zich aan te passen aan diverse scenario's en taken. Real-time strategy (RTS)-spellen vormen een ideale testomgeving voor het evalueren van deze twee capaciteiten, omdat hun inherente gameplay zowel strategische planning op macroniveau als tactische aanpassing en actie-uitvoering op microniveau vereist. Bestaande op RTS-spellen gebaseerde omgevingen kampen ofwel met relatief hoge computationele eisen, ofwel ontbreekt het hen aan ondersteuning voor tekstuele observaties, wat het gebruik van RTS-spellen voor LLM-evaluatie heeft beperkt. Gemotiveerd door dit gegeven presenteren wij TowerMind, een nieuwe omgeving gebaseerd op het tower defense (TD)-subgenre van RTS-spellen. TowerMind behoudt de belangrijkste evaluatiestrekken van RTS-spellen voor het beoordelen van LLM's, terwijl het gekenmerkt wordt door lage computationele eisen en een multimodale observatieruimte, inclusief op pixels gebaseerde, tekstuele en gestructureerde spelstatusrepresentaties. Daarnaast ondersteunt TowerMind de evaluatie van modelhallucinaties en biedt het een hoge mate van aanpasbaarheid. Wij ontwerpen vijf benchmarkniveaus om verschillende veelgebruikte LLM's onder verschillende multimodale invoerinstellingen te evalueren. De resultaten tonen een duidelijke prestatiekloof aan tussen LLM's en menselijke experts, zowel op het gebied van capaciteiten als hallucinaties. De experimenten belichten verder cruciale beperkingen in het gedrag van LLM's, zoals onvoldoende validatie van planning, een gebrek aan multifinaliteit in besluitvorming en inefficiënt actiegebruik. Wij evalueren ook twee klassieke reinforcement learning-algoritmen: Ape-X DQN en PPO. Door een lichtgewicht en multimodaal ontwerp aan te bieden, complementeert TowerMind het bestaande landschap van op RTS-spellen gebaseerde omgevingen en introduceert het een nieuwe benchmark voor het AI-agentveld. De broncode is openbaar beschikbaar op GitHub (https://github.com/tb6147877/TowerMind).
English
Recent breakthroughs in Large Language Models (LLMs) have positioned them as a promising paradigm for agents, with long-term planning and decision-making emerging as core general-purpose capabilities for adapting to diverse scenarios and tasks. Real-time strategy (RTS) games serve as an ideal testbed for evaluating these two capabilities, as their inherent gameplay requires both macro-level strategic planning and micro-level tactical adaptation and action execution. Existing RTS game-based environments either suffer from relatively high computational demands or lack support for textual observations, which has constrained the use of RTS games for LLM evaluation. Motivated by this, we present TowerMind, a novel environment grounded in the tower defense (TD) subgenre of RTS games. TowerMind preserves the key evaluation strengths of RTS games for assessing LLMs, while featuring low computational demands and a multimodal observation space, including pixel-based, textual, and structured game-state representations. In addition, TowerMind supports the evaluation of model hallucination and provides a high degree of customizability. We design five benchmark levels to evaluate several widely used LLMs under different multimodal input settings. The results reveal a clear performance gap between LLMs and human experts across both capability and hallucination dimensions. The experiments further highlight key limitations in LLM behavior, such as inadequate planning validation, a lack of multifinality in decision-making, and inefficient action use. We also evaluate two classic reinforcement learning algorithms: Ape-X DQN and PPO. By offering a lightweight and multimodal design, TowerMind complements the existing RTS game-based environment landscape and introduces a new benchmark for the AI agent field. The source code is publicly available on GitHub(https://github.com/tb6147877/TowerMind).
PDF22January 16, 2026