Modèles du monde pour l'affinement des politiques dans StarCraft II
World Models for Policy Refinement in StarCraft II
February 16, 2026
papers.authors: Yixin Zhang, Ziyi Wang, Yiming Rong, Haoxi Wang, Jinling Jiang, Shuang Xu, Haoran Wu, Shiyu Zhou, Bo Xu
cs.AI
papers.abstract
Les grands modèles de langage (LLM) ont récemment démontré de solides capacités de raisonnement et de généralisation, motivant leur utilisation comme politiques décisionnelles dans des environnements complexes. StarCraft II (SC2), avec son espace d'états-actions massif et son observabilité partielle, constitue un banc d'essai exigeant. Cependant, les agents SC2 existants basés sur les LLM se concentrent principalement sur l'amélioration de la politique elle-même et négligent l'intégration d'un modèle de transition apprenable et conditionné par les actions dans la boucle décisionnelle. Pour combler cette lacune, nous proposons StarWM, le premier modèle du monde pour SC2 qui prédit les observations futures sous observabilité partielle. Pour faciliter l'apprentissage de la dynamique hybride de SC2, nous introduisons une représentation textuelle structurée qui factorise les observations en cinq modules sémantiques, et construisons SC2-Dynamics-50k, le premier jeu de données d'instruction-tuning pour la prédiction de la dynamique de SC2. Nous développons en outre un cadre d'évaluation hors ligne multidimensionnel pour les observations structurées prédites. Les résultats hors ligne montrent les gains substantiels de StarWM par rapport aux approches zero-shot, incluant des améliorations de près de 60% dans la précision de prédiction des ressources et la cohérence de la macro-situation du côté allié. Enfin, nous proposons StarWM-Agent, un système décisionnel augmenté par un modèle du monde qui intègre StarWM dans une boucle décisionnelle Générer-Simuler-Affiner pour un raffinement de politique guidé par l'anticipation. L'évaluation en ligne contre l'IA intégrée de SC2 démontre des améliorations constantes, avec des gains de taux de victoire de 30%, 15% et 30% contre les niveaux Difficile (NV5), Plus Difficile (NV6) et Très Difficile (NV7) respectivement, accompagnés d'une stabilité améliorée de la macro-gestion et d'une meilleure évaluation des risques tactiques.
English
Large Language Models (LLMs) have recently shown strong reasoning and generalization capabilities, motivating their use as decision-making policies in complex environments. StarCraft II (SC2), with its massive state-action space and partial observability, is a challenging testbed. However, existing LLM-based SC2 agents primarily focus on improving the policy itself and overlook integrating a learnable, action-conditioned transition model into the decision loop. To bridge this gap, we propose StarWM, the first world model for SC2 that predicts future observations under partial observability. To facilitate learning SC2's hybrid dynamics, we introduce a structured textual representation that factorizes observations into five semantic modules, and construct SC2-Dynamics-50k, the first instruction-tuning dataset for SC2 dynamics prediction. We further develop a multi-dimensional offline evaluation framework for predicted structured observations. Offline results show StarWM's substantial gains over zero-shot baselines, including nearly 60% improvements in resource prediction accuracy and self-side macro-situation consistency. Finally, we propose StarWM-Agent, a world-model-augmented decision system that integrates StarWM into a Generate--Simulate--Refine decision loop for foresight-driven policy refinement. Online evaluation against SC2's built-in AI demonstrates consistent improvements, yielding win-rate gains of 30%, 15%, and 30% against Hard (LV5), Harder (LV6), and VeryHard (LV7), respectively, alongside improved macro-management stability and tactical risk assessment.