TowerMind: Un Ambiente di Apprendimento e Benchmark per Giochi Tower Defence per LLM come Agenti

Abstract

I recenti progressi nei Modelli Linguistici di Grande Dimensioni (LLM) li hanno posizionati come un paradigma promettente per gli agenti, con la pianificazione a lungo termine e la presa di decisioni che emergono come capacità generali fondamentali per l'adattamento a scenari e compiti diversi. I giochi di strategia in tempo reale (RTS) rappresentano un banco di prova ideale per valutare queste due capacità, poiché la loro gameplay intrinseca richiede sia una pianificazione strategica a livello macro che un adattamento tattico e un'esecuzione di azioni a livello micro. Gli ambienti esistenti basati su giochi RTS soffrono di richieste computazionali relativamente elevate o della mancanza di supporto per osservazioni testuali, il che ha limitato l'uso dei giochi RTS per la valutazione degli LLM. Motivati da ciò, presentiamo TowerMind, un nuovo ambiente basato sul sottogenere tower defense (TD) dei giochi RTS. TowerMind preserva i punti di forza valutativi chiave dei giochi RTS per valutare gli LLM, pur caratterizzandosi per basse richieste computazionali e uno spazio di osservazione multimodale, che include rappresentazioni dello stato di gioco basate su pixel, testuali e strutturate. Inoltre, TowerMind supporta la valutazione delle allucinazioni del modello e offre un alto grado di personalizzabilità. Progettiamo cinque livelli benchmark per valutare diversi LLM ampiamente utilizzati in diverse configurazioni di input multimodale. I risultati rivelano un chiaro divario prestazionale tra gli LLM e gli esperti umani sia nelle dimensioni delle capacità che delle allucinazioni. Gli esperimenti evidenziano ulteriormente limitazioni chiave nel comportamento degli LLM, come una validazione inadeguata della pianificazione, una mancanza di multifinalità nel processo decisionale e un uso inefficiente delle azioni. Valutiamo anche due classici algoritmi di apprendimento per rinforzo: Ape-X DQN e PPO. Offrendo un design leggero e multimodale, TowerMind completa il panorama esistente degli ambienti basati su giochi RTS e introduce un nuovo benchmark per il campo degli agenti di IA. Il codice sorgente è pubblicamente disponibile su GitHub (https://github.com/tb6147877/TowerMind).

English

Recent breakthroughs in Large Language Models (LLMs) have positioned them as a promising paradigm for agents, with long-term planning and decision-making emerging as core general-purpose capabilities for adapting to diverse scenarios and tasks. Real-time strategy (RTS) games serve as an ideal testbed for evaluating these two capabilities, as their inherent gameplay requires both macro-level strategic planning and micro-level tactical adaptation and action execution. Existing RTS game-based environments either suffer from relatively high computational demands or lack support for textual observations, which has constrained the use of RTS games for LLM evaluation. Motivated by this, we present TowerMind, a novel environment grounded in the tower defense (TD) subgenre of RTS games. TowerMind preserves the key evaluation strengths of RTS games for assessing LLMs, while featuring low computational demands and a multimodal observation space, including pixel-based, textual, and structured game-state representations. In addition, TowerMind supports the evaluation of model hallucination and provides a high degree of customizability. We design five benchmark levels to evaluate several widely used LLMs under different multimodal input settings. The results reveal a clear performance gap between LLMs and human experts across both capability and hallucination dimensions. The experiments further highlight key limitations in LLM behavior, such as inadequate planning validation, a lack of multifinality in decision-making, and inefficient action use. We also evaluate two classic reinforcement learning algorithms: Ape-X DQN and PPO. By offering a lightweight and multimodal design, TowerMind complements the existing RTS game-based environment landscape and introduces a new benchmark for the AI agent field. The source code is publicly available on GitHub(https://github.com/tb6147877/TowerMind).

TowerMind: Un Ambiente di Apprendimento e Benchmark per Giochi Tower Defence per LLM come Agenti

TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents

Abstract

Support