ChatPaper.aiChatPaper

TowerMind: Eine Tower-Defense-Lernumgebung und Benchmark für LLM als Agenten

TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents

January 9, 2026
papers.authors: Dawei Wang, Chengming Zhou, Di Zhao, Xinyuan Liu, Marci Chi Ma, Gary Ushaw, Richard Davison
cs.AI

papers.abstract

Jüngste Durchbrüche bei großen Sprachmodellen (LLMs) haben diese zu einem vielversprechenden Paradigma für Agenten gemacht, wobei langfristige Planung und Entscheidungsfindung als zentrale Allzweckfähigkeiten für die Anpassung an verschiedene Szenarien und Aufgaben hervortreten. Echtzeitstrategie-Spiele (RTS) dienen als ideale Testumgebung zur Bewertung dieser beiden Fähigkeiten, da ihr inhärenter Spielverlauf sowohl strategische Planung auf Makroebene als auch taktische Anpassung und Aktionsausführung auf Mikroebene erfordert. Bestehende, auf RTS-Spielen basierende Umgebungen leiden entweder unter relativ hohen Rechenanforderungen oder fehlender Unterstützung für textuelle Beobachtungen, was die Nutzung von RTS-Spielen zur LLM-Evaluierung eingeschränkt hat. Aus dieser Motivation heraus präsentieren wir TowerMind, eine neuartige Umgebung, die im Tower-Defense (TD)-Subgenre von RTS-Spielen angesiedelt ist. TowerMind bewahrt die zentralen Evaluierungsstärken von RTS-Spielen zur Bewertung von LLMs, zeichnet sich jedoch durch geringe Rechenanforderungen und einen multimodalen Beobachtungsraum aus, der pixelbasierte, textuelle und strukturierte Spielzustandsrepräsentationen umfasst. Zusätzlich unterstützt TowerMind die Bewertung von Modellhalluzinationen und bietet einen hohen Grad an Anpassbarkeit. Wir entwerfen fünf Benchmark-Level, um mehrere weit verbreitete LLMs unter verschiedenen multimodalen Eingabeeinstellungen zu evaluieren. Die Ergebnisse zeigen eine deutliche Leistungslücke zwischen LLMs und menschlichen Experten sowohl in den Fähigkeits- als auch in den Halluzinationsdimensionen. Die Experimente verdeutlichen weiterhin zentrale Limitationen im LLM-Verhalten, wie unzureichende Planungsvalidierung, mangelnde Multifinalität in der Entscheidungsfindung und ineffiziente Aktionsnutzung. Wir evaluieren außerdem zwei klassische Reinforcement-Learning-Algorithmen: Ape-X DQN und PPO. Durch seinen leichtgewichtigen und multimodalen Aufbau ergänzt TowerMind die bestehende Landschaft RTS-basierter Umgebungen und führt einen neuen Benchmark für das Feld der KI-Agenten ein. Der Quellcode ist öffentlich auf GitHub verfügbar (https://github.com/tb6147877/TowerMind).
English
Recent breakthroughs in Large Language Models (LLMs) have positioned them as a promising paradigm for agents, with long-term planning and decision-making emerging as core general-purpose capabilities for adapting to diverse scenarios and tasks. Real-time strategy (RTS) games serve as an ideal testbed for evaluating these two capabilities, as their inherent gameplay requires both macro-level strategic planning and micro-level tactical adaptation and action execution. Existing RTS game-based environments either suffer from relatively high computational demands or lack support for textual observations, which has constrained the use of RTS games for LLM evaluation. Motivated by this, we present TowerMind, a novel environment grounded in the tower defense (TD) subgenre of RTS games. TowerMind preserves the key evaluation strengths of RTS games for assessing LLMs, while featuring low computational demands and a multimodal observation space, including pixel-based, textual, and structured game-state representations. In addition, TowerMind supports the evaluation of model hallucination and provides a high degree of customizability. We design five benchmark levels to evaluate several widely used LLMs under different multimodal input settings. The results reveal a clear performance gap between LLMs and human experts across both capability and hallucination dimensions. The experiments further highlight key limitations in LLM behavior, such as inadequate planning validation, a lack of multifinality in decision-making, and inefficient action use. We also evaluate two classic reinforcement learning algorithms: Ape-X DQN and PPO. By offering a lightweight and multimodal design, TowerMind complements the existing RTS game-based environment landscape and introduces a new benchmark for the AI agent field. The source code is publicly available on GitHub(https://github.com/tb6147877/TowerMind).
PDF11January 13, 2026