Wereldmodellen voor beleidsverfijning in StarCraft II

Samenvatting

Grote Taalmodellen (GTM's) hebben recent sterke redeneer- en generalisatiecapaciteiten getoond, wat hun inzet als besluitvormingsbeleid in complexe omgevingen motiveert. StarCraft II (SC2), met zijn enorme staat-actie-ruimte en gedeeltelijke observeerbaarheid, is een uitdagende testomgeving. Echter, bestaande GTM-gebaseerde SC2-agenten richten zich voornamelijk op het verbeteren van het beleid zelf en verwaarlozen de integratie van een leerbaar, actie-geconditioneerd overgangsmodel in de besluitvormingslus. Om deze kloof te overbruggen, stellen wij StarWM voor, het eerste wereldmodel voor SC2 dat toekomstige observaties voorspelt onder gedeeltelijke observeerbaarheid. Om het leren van SC2's hybride dynamiek te vergemakkelijken, introduceren wij een gestructureerde tekstuele representatie die observaties factoriseert in vijf semantische modules, en construeren wij SC2-Dynamics-50k, de eerste instructie-afsteldataset voor SC2-dynamiekvoorspelling. Wij ontwikkelen verder een multidimensionaal offline evaluatiekader voor voorspelde gestructureerde observaties. Offline resultaten tonen substantiële winsten van StarWM ten opzichte van zero-shot basislijnen, waaronder bijna 60% verbetering in nauwkeurigheid van resourcevoorspelling en consistentie van de macro-situatie aan eigen zijde. Ten slotte stellen wij StarWM-Agent voor, een wereldmodel-versterkt besluitvormingssysteem dat StarWM integreert in een Genereren--Simuleren--Verfijnen besluitvormingslus voor vooruitziend beleidsverfijning. Online evaluatie tegen SC2's ingebouwde AI toont consistente verbeteringen, met winstpercentagestijgingen van respectievelijk 30%, 15% en 30% tegen Hard (NV5), Harder (NV6) en ZeerMoeilijk (NV7), naast verbeterde macro-managementstabiliteit en tactische risico-inschatting.

English

Large Language Models (LLMs) have recently shown strong reasoning and generalization capabilities, motivating their use as decision-making policies in complex environments. StarCraft II (SC2), with its massive state-action space and partial observability, is a challenging testbed. However, existing LLM-based SC2 agents primarily focus on improving the policy itself and overlook integrating a learnable, action-conditioned transition model into the decision loop. To bridge this gap, we propose StarWM, the first world model for SC2 that predicts future observations under partial observability. To facilitate learning SC2's hybrid dynamics, we introduce a structured textual representation that factorizes observations into five semantic modules, and construct SC2-Dynamics-50k, the first instruction-tuning dataset for SC2 dynamics prediction. We further develop a multi-dimensional offline evaluation framework for predicted structured observations. Offline results show StarWM's substantial gains over zero-shot baselines, including nearly 60% improvements in resource prediction accuracy and self-side macro-situation consistency. Finally, we propose StarWM-Agent, a world-model-augmented decision system that integrates StarWM into a Generate--Simulate--Refine decision loop for foresight-driven policy refinement. Online evaluation against SC2's built-in AI demonstrates consistent improvements, yielding win-rate gains of 30%, 15%, and 30% against Hard (LV5), Harder (LV6), and VeryHard (LV7), respectively, alongside improved macro-management stability and tactical risk assessment.

Wereldmodellen voor beleidsverfijning in StarCraft II

World Models for Policy Refinement in StarCraft II

Samenvatting

Support