ChatPaper.aiChatPaper

スタークラフトIIにおける政策洗練のための世界モデル

World Models for Policy Refinement in StarCraft II

February 16, 2026
著者: Yixin Zhang, Ziyi Wang, Yiming Rong, Haoxi Wang, Jinling Jiang, Shuang Xu, Haoran Wu, Shiyu Zhou, Bo Xu
cs.AI

要旨

大規模言語モデル(LLM)は近年、強力な推論能力と汎化能力を示し、複雑な環境における意思決定ポリシーとしての応用が期待されている。StarCraft II(SC2)は、その膨大な状態-行動空間と部分観測性から、挑戦的なテストベッドとなっている。しかし、既存のLLMベースのSC2エージェントは主にポリシー自体の改善に焦点を当てており、学習可能な行動条件付き状態遷移モデルを意思決定ループに統合することを見落としている。このギャップを埋めるため、我々は部分観測下での将来の観測を予測する、SC2初の世界モデルであるStarWMを提案する。SC2のハイブリッドなダイナミクスを効果的に学習するため、観測を5つの意味論的モジュールに分解する構造化テキスト表現を導入し、SC2ダイナミクス予測用初の指示チューニングデータセットであるSC2-Dynamics-50kを構築した。さらに、予測された構造化観測のための多次元オフライン評価フレームワークを開発した。オフライン評価の結果、StarWMはゼロショットベースラインを大幅に上回り、資源予測精度で約60%、自軍の大局的状況の一貫性において顕著な改善を示した。最後に、StarWMをGenerate-Simulate-Refine意思決定ループに統合し、先読み駆動型のポリシー改善を実現する世界モデル拡張意思決定システム、StarWM-Agentを提案する。SC2組み込みAIに対するオンライン評価では、一貫した改善が確認され、Hard(LV5)、Harder(LV6)、VeryHard(LV7)に対してそれぞれ30%、15%、30%の勝率向上をもたらすとともに、大局的マネジメントの安定性と戦術的リスク評価の向上が示された。
English
Large Language Models (LLMs) have recently shown strong reasoning and generalization capabilities, motivating their use as decision-making policies in complex environments. StarCraft II (SC2), with its massive state-action space and partial observability, is a challenging testbed. However, existing LLM-based SC2 agents primarily focus on improving the policy itself and overlook integrating a learnable, action-conditioned transition model into the decision loop. To bridge this gap, we propose StarWM, the first world model for SC2 that predicts future observations under partial observability. To facilitate learning SC2's hybrid dynamics, we introduce a structured textual representation that factorizes observations into five semantic modules, and construct SC2-Dynamics-50k, the first instruction-tuning dataset for SC2 dynamics prediction. We further develop a multi-dimensional offline evaluation framework for predicted structured observations. Offline results show StarWM's substantial gains over zero-shot baselines, including nearly 60% improvements in resource prediction accuracy and self-side macro-situation consistency. Finally, we propose StarWM-Agent, a world-model-augmented decision system that integrates StarWM into a Generate--Simulate--Refine decision loop for foresight-driven policy refinement. Online evaluation against SC2's built-in AI demonstrates consistent improvements, yielding win-rate gains of 30%, 15%, and 30% against Hard (LV5), Harder (LV6), and VeryHard (LV7), respectively, alongside improved macro-management stability and tactical risk assessment.
PDF12February 21, 2026