ChatPaper.aiChatPaper

TowerMind: Un Entorno de Aprendizaje y Punto de Referencia para Juegos de Defensa de Torres para LLM como Agentes

TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents

January 9, 2026
Autores: Dawei Wang, Chengming Zhou, Di Zhao, Xinyuan Liu, Marci Chi Ma, Gary Ushaw, Richard Davison
cs.AI

Resumen

Los recientes avances en los Modelos de Lenguaje a Gran Escala (LLMs) los han posicionado como un paradigma prometedor para agentes, surgiendo la planificación a largo plazo y la toma de decisiones como capacidades centrales de propósito general para adaptarse a diversos escenarios y tareas. Los juegos de estrategia en tiempo real (RTS) sirven como un banco de pruebas ideal para evaluar estas dos capacidades, ya que su jugabilidad inherente requiere tanto una planificación estratégica a nivel macro como una adaptación táctica y ejecución de acciones a nivel micro. Los entornos existentes basados en juegos RTS adolecen de demandas computacionales relativamente altas o carecen de soporte para observaciones textuales, lo que ha limitado el uso de estos juegos para la evaluación de LLMs. Motivados por esto, presentamos TowerMind, un nuevo entorno basado en el subgénero de defensa de torres (TD) de los juegos RTS. TowerMind preserva las fortalezas clave de evaluación de los juegos RTS para valorar LLMs, a la vez que presenta bajas demandas computacionales y un espacio de observación multimodal, que incluye representaciones basadas en píxeles, textuales y del estado estructurado del juego. Además, TowerMind permite evaluar las alucinaciones de los modelos y ofrece un alto grado de personalización. Diseñamos cinco niveles de referencia para evaluar varios LLMs ampliamente utilizados bajo diferentes configuraciones de entrada multimodal. Los resultados revelan una clara brecha de rendimiento entre los LLMs y los expertos humanos en las dimensiones de capacidad y alucinación. Los experimentos destacan además limitaciones clave en el comportamiento de los LLMs, como una validación de planificación inadecuada, una falta de multifinalidad en la toma de decisiones y un uso ineficiente de las acciones. También evaluamos dos algoritmos clásicos de aprendizaje por refuerzo: Ape-X DQN y PPO. Al ofrecer un diseño ligero y multimodal, TowerMind complementa el panorama existente de entornos basados en juegos RTS e introduce un nuevo punto de referencia para el campo de los agentes de IA. El código fuente está disponible públicamente en GitHub (https://github.com/tb6147877/TowerMind).
English
Recent breakthroughs in Large Language Models (LLMs) have positioned them as a promising paradigm for agents, with long-term planning and decision-making emerging as core general-purpose capabilities for adapting to diverse scenarios and tasks. Real-time strategy (RTS) games serve as an ideal testbed for evaluating these two capabilities, as their inherent gameplay requires both macro-level strategic planning and micro-level tactical adaptation and action execution. Existing RTS game-based environments either suffer from relatively high computational demands or lack support for textual observations, which has constrained the use of RTS games for LLM evaluation. Motivated by this, we present TowerMind, a novel environment grounded in the tower defense (TD) subgenre of RTS games. TowerMind preserves the key evaluation strengths of RTS games for assessing LLMs, while featuring low computational demands and a multimodal observation space, including pixel-based, textual, and structured game-state representations. In addition, TowerMind supports the evaluation of model hallucination and provides a high degree of customizability. We design five benchmark levels to evaluate several widely used LLMs under different multimodal input settings. The results reveal a clear performance gap between LLMs and human experts across both capability and hallucination dimensions. The experiments further highlight key limitations in LLM behavior, such as inadequate planning validation, a lack of multifinality in decision-making, and inefficient action use. We also evaluate two classic reinforcement learning algorithms: Ape-X DQN and PPO. By offering a lightweight and multimodal design, TowerMind complements the existing RTS game-based environment landscape and introduces a new benchmark for the AI agent field. The source code is publicly available on GitHub(https://github.com/tb6147877/TowerMind).
PDF11January 13, 2026