ChatPaper.aiChatPaper

스타크래프트 II에서 정책 개선을 위한 월드 모델

World Models for Policy Refinement in StarCraft II

February 16, 2026
저자: Yixin Zhang, Ziyi Wang, Yiming Rong, Haoxi Wang, Jinling Jiang, Shuang Xu, Haoran Wu, Shiyu Zhou, Bo Xu
cs.AI

초록

대규모 언어 모델(LLM)은 최근 강력한 추론 및 일반화 능력을 보여주며 복잡한 환경에서 의사 결정 정책으로 활용될 동기를 부여하고 있습니다. 방대한 상태-행동 공간과 부분 관측 가능성을 지닌 스타크래프트 II(SC2)는 이를 검증하기 위한 도전적인 테스트베드입니다. 그러나 기존 LLM 기반 SC2 에이전트는 주로 정책 자체 개선에 초점을 맞추고, 학습 가능한 행동 조건 전이 모델을 의사 결정 루프에 통합하는 것을 간과해 왔습니다. 이러한 격차를 해소하기 위해 우리는 부분 관측 하에서 미래 관측을 예측하는 최초의 SC2 월드 모델인 StarWM을 제안합니다. SC2의 하이브리드 역학을 효과적으로 학습하기 위해 관측을 5개의 의미론적 모듈로 분해하는 구조화된 텍스트 표현을 도입하고, SC2 역학 예측을 위한 최초의 지시어 조정 데이터셋인 SC2-Dynamics-50k를 구축했습니다. 또한 예측된 구조화 관측을 위한 다차원 오프라인 평가 프레임워크를 개발했습니다. 오프라인 결과는 StarWM이 자원 예측 정확도와 아군 전체 상황 일관성에서 각각近 60% 향상된 성능을 포함하여 제로샷 기준선 대비 상당한 이점을 보여주었습니다. 마지막으로, 우리는 StarWM을 Generate-Simulate-Refine 의사 결정 루프에 통합하여 예견 기반 정책 개선을 수행하는 월드 모델 강화 의사 결정 시스템인 StarWM-Agent를 제안합니다. SC2 내장 AI에 대한 온라인 평가 결과, Hard(LV5), Harder(LV6), VeryHard(LV7) 난이도에서 각각 30%, 15%, 30%의 승률 향상과 더불어 향상된 전체 운영 안정성 및 전술적 위험 평가 성능을 보여주며 일관된 개선을 입증했습니다.
English
Large Language Models (LLMs) have recently shown strong reasoning and generalization capabilities, motivating their use as decision-making policies in complex environments. StarCraft II (SC2), with its massive state-action space and partial observability, is a challenging testbed. However, existing LLM-based SC2 agents primarily focus on improving the policy itself and overlook integrating a learnable, action-conditioned transition model into the decision loop. To bridge this gap, we propose StarWM, the first world model for SC2 that predicts future observations under partial observability. To facilitate learning SC2's hybrid dynamics, we introduce a structured textual representation that factorizes observations into five semantic modules, and construct SC2-Dynamics-50k, the first instruction-tuning dataset for SC2 dynamics prediction. We further develop a multi-dimensional offline evaluation framework for predicted structured observations. Offline results show StarWM's substantial gains over zero-shot baselines, including nearly 60% improvements in resource prediction accuracy and self-side macro-situation consistency. Finally, we propose StarWM-Agent, a world-model-augmented decision system that integrates StarWM into a Generate--Simulate--Refine decision loop for foresight-driven policy refinement. Online evaluation against SC2's built-in AI demonstrates consistent improvements, yielding win-rate gains of 30%, 15%, and 30% against Hard (LV5), Harder (LV6), and VeryHard (LV7), respectively, alongside improved macro-management stability and tactical risk assessment.
PDF12February 21, 2026