Modelos Mundiais para Refinamento de Políticas em StarCraft II

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) demonstraram recentemente fortes capacidades de raciocínio e generalização, motivando seu uso como políticas de tomada de decisão em ambientes complexos. StarCraft II (SC2), com seu massivo espaço de estados-ações e observabilidade parcial, constitui um ambiente de teste desafiador. No entanto, os agentes de SC2 baseados em LLM existentes focam-se principalmente em melhorar a política em si e negligenciam a integração de um modelo de transição condicionado por ações e passível de aprendizado no ciclo de decisão. Para preencher esta lacuna, propomos o StarWM, o primeiro modelo de mundo para SC2 que prevê observações futuras sob observabilidade parcial. Para facilitar a aprendizagem da dinâmica híbrida do SC2, introduzimos uma representação textual estruturada que fatoriza as observações em cinco módulos semânticos e construímos o SC2-Dynamics-50k, o primeiro conjunto de dados de ajuste por instrução para previsão da dinâmica do SC2. Desenvolvemos ainda uma estrutura de avaliação offline multidimensional para observações estruturadas previstas. Resultados offline mostram ganhos substanciais do StarWM sobre linhas de base de zero-shot, incluindo melhorias de quase 60% na precisão da previsão de recursos e na consistência da macro-situação do próprio lado. Finalmente, propomos o StarWM-Agent, um sistema de decisão aumentado por modelo de mundo que integra o StarWM num ciclo de decisão Gerar-Simular-Refinar para o aperfeiçoamento de políticas orientado pela previsão. A avaliação online contra a IA integrada do SC2 demonstra melhorias consistentes, resultando em ganhos de taxa de vitória de 30%, 15% e 30% contra os níveis Difícil (NV5), Mais Difícil (NV6) e Muito Difícil (NV7), respectivamente, juntamente com uma melhor estabilidade na macrogestão e avaliação de risco tático.

English

Large Language Models (LLMs) have recently shown strong reasoning and generalization capabilities, motivating their use as decision-making policies in complex environments. StarCraft II (SC2), with its massive state-action space and partial observability, is a challenging testbed. However, existing LLM-based SC2 agents primarily focus on improving the policy itself and overlook integrating a learnable, action-conditioned transition model into the decision loop. To bridge this gap, we propose StarWM, the first world model for SC2 that predicts future observations under partial observability. To facilitate learning SC2's hybrid dynamics, we introduce a structured textual representation that factorizes observations into five semantic modules, and construct SC2-Dynamics-50k, the first instruction-tuning dataset for SC2 dynamics prediction. We further develop a multi-dimensional offline evaluation framework for predicted structured observations. Offline results show StarWM's substantial gains over zero-shot baselines, including nearly 60% improvements in resource prediction accuracy and self-side macro-situation consistency. Finally, we propose StarWM-Agent, a world-model-augmented decision system that integrates StarWM into a Generate--Simulate--Refine decision loop for foresight-driven policy refinement. Online evaluation against SC2's built-in AI demonstrates consistent improvements, yielding win-rate gains of 30%, 15%, and 30% against Hard (LV5), Harder (LV6), and VeryHard (LV7), respectively, alongside improved macro-management stability and tactical risk assessment.

Modelos Mundiais para Refinamento de Políticas em StarCraft II

World Models for Policy Refinement in StarCraft II

Resumo

Support