TowerMind: LLM 에이전트를 위한 타워 디펜스 게임 학습 환경 및 벤치마크
TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents
January 9, 2026
저자: Dawei Wang, Chengming Zhou, Di Zhao, Xinyuan Liu, Marci Chi Ma, Gary Ushaw, Richard Davison
cs.AI
초록
대규모 언어 모델(LLM)의 최근 획기적인 발전은 이를 에이전트로서 유망한 패러다임으로 자리매김하게 했으며, 장기 계획 및 의사 결정 능력은 다양한 시나리오와 작업에 적응하기 위한 핵심 범용 능력으로 부상하고 있습니다. 실시간 전략(RTS) 게임은 게임 플레이의 특성상 거시적 차원의 전략적 계획과 미시적 차원의 전술적 적응 및 행동 실행을 모두 요구하기 때문에 이 두 가지 능력을 평가하기 위한 이상적인 테스트베드 역할을 합니다. 기존 RTS 게임 기반 환경은 비교적 높은 계산 수요를 가지거나 텍스트 관측을 지원하지 않는 문제점이 있어 LLM 평가를 위한 RTS 게임 활용이 제한되어 왔습니다. 이러한 동기에 따라 우리는 RTS 게임의 하위 장르인 타워 디펜스(TD)에 기반한 새로운 환경인 TowerMind를 제안합니다. TowerMind는 낮은 계산 수요와 픽셀 기반, 텍스트, 구조화된 게임 상태 표현을 포함한 다중 모달 관측 공간을 특징으로 하면서도, LLM 평가를 위한 RTS 게임의 핵심 평가 강점을 유지합니다. 또한 TowerMind는 모델 환각 평가를 지원하고 높은 수준의 사용자 정의 기능을 제공합니다. 우리는 다양한 다중 모달 입력 설정 하에서 여러 널리 사용되는 LLM을 평가하기 위해 5개의 벤치마크 레벨을 설계했습니다. 결과는 능력과 환각 차원 모두에서 LLM과 인간 전문가 간의 뚜렷한 성능 격차를 보여줍니다. 실험은 더 나아가 계획 검증의 부족, 의사 결정에서 다중 최종성의 부재, 비효율적인 행동 사용과 같은 LLM 행동의 주요 한계를 부각시킵니다. 우리는 또한 두 가지 고전적 강화 학습 알고리즘인 Ape-X DQN과 PPO를 평가했습니다. 경량화되고 다중 모달로 설계된 TowerMind는 기존 RTS 게임 기반 환경 환경을 보완하고 AI 에이전트 분야에 새로운 벤치마크를 소개합니다. 소스 코드는 GitHub(https://github.com/tb6147877/TowerMind)에서 공개되어 있습니다.
English
Recent breakthroughs in Large Language Models (LLMs) have positioned them as a promising paradigm for agents, with long-term planning and decision-making emerging as core general-purpose capabilities for adapting to diverse scenarios and tasks. Real-time strategy (RTS) games serve as an ideal testbed for evaluating these two capabilities, as their inherent gameplay requires both macro-level strategic planning and micro-level tactical adaptation and action execution. Existing RTS game-based environments either suffer from relatively high computational demands or lack support for textual observations, which has constrained the use of RTS games for LLM evaluation. Motivated by this, we present TowerMind, a novel environment grounded in the tower defense (TD) subgenre of RTS games. TowerMind preserves the key evaluation strengths of RTS games for assessing LLMs, while featuring low computational demands and a multimodal observation space, including pixel-based, textual, and structured game-state representations. In addition, TowerMind supports the evaluation of model hallucination and provides a high degree of customizability. We design five benchmark levels to evaluate several widely used LLMs under different multimodal input settings. The results reveal a clear performance gap between LLMs and human experts across both capability and hallucination dimensions. The experiments further highlight key limitations in LLM behavior, such as inadequate planning validation, a lack of multifinality in decision-making, and inefficient action use. We also evaluate two classic reinforcement learning algorithms: Ape-X DQN and PPO. By offering a lightweight and multimodal design, TowerMind complements the existing RTS game-based environment landscape and introduces a new benchmark for the AI agent field. The source code is publicly available on GitHub(https://github.com/tb6147877/TowerMind).