Weltmodelle zur Politikanpassung in StarCraft II
World Models for Policy Refinement in StarCraft II
February 16, 2026
papers.authors: Yixin Zhang, Ziyi Wang, Yiming Rong, Haoxi Wang, Jinling Jiang, Shuang Xu, Haoran Wu, Shiyu Zhou, Bo Xu
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben kürzlich starke Fähigkeiten im Bereich des logischen Schließens und der Generalisierung gezeigt, was ihren Einsatz als Entscheidungsstrategien in komplexen Umgebungen motiviert. StarCraft II (SC2) mit seinem massiven Zustands-Aktions-Raum und teilweisen Beobachtbarkeit stellt eine anspruchsvolle Testplattform dar. Bisher konzentrieren sich existierende LLM-basierte SC2-Agenten jedoch primär auf die Verbesserung der Strategie selbst und übersehen die Integration eines lernbaren, aktionsbedingten Übergangsmodells in die Entscheidungsschleife. Um diese Lücke zu schließen, schlagen wir StarWM vor, das erste Weltmodell für SC2, das zukünftige Beobachtungen unter teilweiser Beobachtbarkeit vorhersagt. Um das Lernen der hybriden Dynamik von SC2 zu erleichtern, führen wir eine strukturierte textuelle Repräsentation ein, die Beobachtungen in fünf semantische Module faktorisiert, und erstellen SC2-Dynamics-50k, den ersten Instruction-Tuning-Datensatz für die SC2-Dynamikvorhersage. Weiterhin entwickeln wir ein mehrdimensionales Offline-Bewertungsframework für vorhergesagte strukturierte Beobachtungen. Offline-Ergebnisse zeigen substanzielle Verbesserungen von StarWM gegenüber Zero-Shot-Baselines, einschließlich nahezu 60 % besserer Genauigkeit bei der Ressourcenvorhersage und einer höheren Konsistenz der eigenen makrostrategischen Lage. Abschließend schlagen wir StarWM-Agent vor, ein weltmodellgestütztes Entscheidungssystem, das StarWM in eine Generieren–Simulieren–Verfeinern-Entscheidungsschleife integriert, um vorausschauende Strategieverfeinerung zu ermöglichen. Die Online-Evaluierung gegen die eingebaute KI von SC2 zeigt durchgängige Verbesserungen mit Steigerungen der Gewinnrate um 30 %, 15 % bzw. 30 % gegen die Schwierigkeitsgrade Hard (Stufe 5), Harder (Stufe 6) und VeryHard (Stufe 7), verbunden mit verbesserter Stabilität im Makromanagement und taktischer Risikobewertung.
English
Large Language Models (LLMs) have recently shown strong reasoning and generalization capabilities, motivating their use as decision-making policies in complex environments. StarCraft II (SC2), with its massive state-action space and partial observability, is a challenging testbed. However, existing LLM-based SC2 agents primarily focus on improving the policy itself and overlook integrating a learnable, action-conditioned transition model into the decision loop. To bridge this gap, we propose StarWM, the first world model for SC2 that predicts future observations under partial observability. To facilitate learning SC2's hybrid dynamics, we introduce a structured textual representation that factorizes observations into five semantic modules, and construct SC2-Dynamics-50k, the first instruction-tuning dataset for SC2 dynamics prediction. We further develop a multi-dimensional offline evaluation framework for predicted structured observations. Offline results show StarWM's substantial gains over zero-shot baselines, including nearly 60% improvements in resource prediction accuracy and self-side macro-situation consistency. Finally, we propose StarWM-Agent, a world-model-augmented decision system that integrates StarWM into a Generate--Simulate--Refine decision loop for foresight-driven policy refinement. Online evaluation against SC2's built-in AI demonstrates consistent improvements, yielding win-rate gains of 30%, 15%, and 30% against Hard (LV5), Harder (LV6), and VeryHard (LV7), respectively, alongside improved macro-management stability and tactical risk assessment.