TowerMind : Un Environnement d'Apprentissage de Jeu de Défense de Tour et un Référentiel pour les LLM en Tant qu'Agents
TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents
January 9, 2026
papers.authors: Dawei Wang, Chengming Zhou, Di Zhao, Xinyuan Liu, Marci Chi Ma, Gary Ushaw, Richard Davison
cs.AI
papers.abstract
Les récentes avancées des modèles de langage de grande taille (LLM) les positionnent comme un paradigme prometteur pour les agents, la planification à long terme et la prise de décision émergeant comme des capacités polyvalentes fondamentales pour s'adapter à divers scénarios et tâches. Les jeux de stratégie en temps réel (RTS) constituent un banc d'essai idéal pour évaluer ces deux capacités, car leur gameplay intrinsèque requiert à la fois une planification stratégique au niveau macro et une adaptation tactique avec exécution d'actions au niveau micro. Les environnements existants basés sur les jeux RTS souffrent soit de demandes computationnelles relativement élevées, soit d'un manque de support pour les observations textuelles, ce qui a limité l'utilisation des jeux RTS pour l'évaluation des LLM. Motivés par ce constat, nous présentons TowerMind, un nouvel environnement basé sur le sous-genre tower defense (TD) des jeux RTS. TowerMind préserve les principaux atouts évaluatifs des jeux RTS pour l'évaluation des LLM, tout en présentant de faibles exigences computationnelles et un espace d'observation multimodal, incluant des représentations basées sur les pixels, textuelles et structurées de l'état du jeu. De plus, TowerMind permet d'évaluer les hallucinations des modèles et offre un degré élevé de personnalisation. Nous concevons cinq niveaux de référence pour évaluer plusieurs LLM largement utilisés sous différents paramètres d'entrée multimodale. Les résultats révèlent un écart de performance net entre les LLM et les experts humains, à la fois sur les dimensions des capacités et des hallucinations. Les expériences mettent en outre en lumière des limitations clés dans le comportement des LLM, telles qu'une validation inadéquate de la planification, un manque de multifinalité dans la prise de décision et une utilisation inefficace des actions. Nous évaluons également deux algorithmes classiques d'apprentissage par renforcement : Ape-X DQN et PPO. En offrant une conception légère et multimodale, TowerMind complète le paysage existant des environnements basés sur les jeux RTS et introduit un nouveau benchmark pour le domaine des agents IA. Le code source est publiquement disponible sur GitHub (https://github.com/tb6147877/TowerMind).
English
Recent breakthroughs in Large Language Models (LLMs) have positioned them as a promising paradigm for agents, with long-term planning and decision-making emerging as core general-purpose capabilities for adapting to diverse scenarios and tasks. Real-time strategy (RTS) games serve as an ideal testbed for evaluating these two capabilities, as their inherent gameplay requires both macro-level strategic planning and micro-level tactical adaptation and action execution. Existing RTS game-based environments either suffer from relatively high computational demands or lack support for textual observations, which has constrained the use of RTS games for LLM evaluation. Motivated by this, we present TowerMind, a novel environment grounded in the tower defense (TD) subgenre of RTS games. TowerMind preserves the key evaluation strengths of RTS games for assessing LLMs, while featuring low computational demands and a multimodal observation space, including pixel-based, textual, and structured game-state representations. In addition, TowerMind supports the evaluation of model hallucination and provides a high degree of customizability. We design five benchmark levels to evaluate several widely used LLMs under different multimodal input settings. The results reveal a clear performance gap between LLMs and human experts across both capability and hallucination dimensions. The experiments further highlight key limitations in LLM behavior, such as inadequate planning validation, a lack of multifinality in decision-making, and inefficient action use. We also evaluate two classic reinforcement learning algorithms: Ape-X DQN and PPO. By offering a lightweight and multimodal design, TowerMind complements the existing RTS game-based environment landscape and introduces a new benchmark for the AI agent field. The source code is publicly available on GitHub(https://github.com/tb6147877/TowerMind).