TowerMind: LLMエージェントのためのタワーディフェンスゲーム学習環境およびベンチマーク
TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents
January 9, 2026
著者: Dawei Wang, Chengming Zhou, Di Zhao, Xinyuan Liu, Marci Chi Ma, Gary Ushaw, Richard Davison
cs.AI
要旨
大規模言語モデル(LLM)における近年の飛躍的進展により、エージェントとしての新たなパラダイムが期待されるようになってきた。特に、多様なシナリオやタスクに適応するための中核的な汎用能力として、長期計画立案と意思決定の重要性が高まっている。リアルタイムストラテジー(RTS)ゲームは、そのゲーム性がマクロレベルの戦略的計画とミクロレベルの戦術的適応・行動実行の両方を必要とするため、これら2つの能力を評価する理想的なテストベッドとなる。既存のRTSゲームベースの環境は、計算コストが比較的高いか、テキスト観測をサポートしていないため、LLM評価へのRTSゲームの活用が制限されてきた。この課題を踏まえ、我々はRTSゲームのサブジャンルであるタワーディフェンス(TD)に基づく新環境「TowerMind」を提案する。TowerMindは、LLM評価におけるRTSゲームの重要な強みを維持しつつ、低い計算負荷と、ピクセルベース・テキスト・構造化ゲーム状態表現を含むマルチモーダルな観測空間を特徴とする。さらに、モデルの幻覚(hallucination)評価をサポートし、高いカスタマイズ性を備えている。我々は5つのベンチマークレベルを設計し、様々なマルチモーダル入力設定下で広く利用されているLLMを評価した。その結果、能力と幻覚の両次元において、LLMと人間の専門家の間に明確な性能差が存在することが明らかになった。実験により、計画検証の不備、意思決定における多終局性の欠如、行動の非効率な使用など、LLMの行動における重要な限界も浮き彫りになった。また、Ape-X DQNとPPOという2つの古典的強化学習アルゴリズムも評価した。軽量かつマルチモーダルな設計により、TowerMindは既存のRTSゲームベース環境を補完し、AIエージェント分野に新たなベンチマークを提供する。ソースコードはGitHub (https://github.com/tb6147877/TowerMind) で公開されている。
English
Recent breakthroughs in Large Language Models (LLMs) have positioned them as a promising paradigm for agents, with long-term planning and decision-making emerging as core general-purpose capabilities for adapting to diverse scenarios and tasks. Real-time strategy (RTS) games serve as an ideal testbed for evaluating these two capabilities, as their inherent gameplay requires both macro-level strategic planning and micro-level tactical adaptation and action execution. Existing RTS game-based environments either suffer from relatively high computational demands or lack support for textual observations, which has constrained the use of RTS games for LLM evaluation. Motivated by this, we present TowerMind, a novel environment grounded in the tower defense (TD) subgenre of RTS games. TowerMind preserves the key evaluation strengths of RTS games for assessing LLMs, while featuring low computational demands and a multimodal observation space, including pixel-based, textual, and structured game-state representations. In addition, TowerMind supports the evaluation of model hallucination and provides a high degree of customizability. We design five benchmark levels to evaluate several widely used LLMs under different multimodal input settings. The results reveal a clear performance gap between LLMs and human experts across both capability and hallucination dimensions. The experiments further highlight key limitations in LLM behavior, such as inadequate planning validation, a lack of multifinality in decision-making, and inefficient action use. We also evaluate two classic reinforcement learning algorithms: Ape-X DQN and PPO. By offering a lightweight and multimodal design, TowerMind complements the existing RTS game-based environment landscape and introduces a new benchmark for the AI agent field. The source code is publicly available on GitHub(https://github.com/tb6147877/TowerMind).