ChatPaper.aiChatPaper

Modelos Mundiales para el Refinamiento de Políticas en StarCraft II

World Models for Policy Refinement in StarCraft II

February 16, 2026
Autores: Yixin Zhang, Ziyi Wang, Yiming Rong, Haoxi Wang, Jinling Jiang, Shuang Xu, Haoran Wu, Shiyu Zhou, Bo Xu
cs.AI

Resumen

Los Modelos de Lenguaje Grandes (LLM) han demostrado recientemente fuertes capacidades de razonamiento y generalización, lo que motiva su uso como políticas de toma de decisiones en entornos complejos. StarCraft II (SC2), con su enorme espacio de estados-acciones y observabilidad parcial, constituye un campo de pruebas desafiante. Sin embargo, los agentes de SC2 basados en LLM existentes se centran principalmente en mejorar la política en sí y pasan por alto la integración de un modelo de transición aprendible y condicionado por acciones en el bucle de decisión. Para cerrar esta brecha, proponemos StarWM, el primer modelo del mundo para SC2 que predice observaciones futuras bajo observabilidad parcial. Para facilitar el aprendizaje de la dinámica híbrida de SC2, introducimos una representación textual estructurada que factoriza las observaciones en cinco módulos semánticos, y construimos SC2-Dynamics-50k, el primer conjunto de datos de ajuste por instrucciones para la predicción de dinámicas de SC2. Además, desarrollamos un marco de evaluación offline multidimensional para las observaciones estructuradas predichas. Los resultados offline muestran las ganancias sustanciales de StarWM sobre los baselines de cero disparos, incluyendo mejoras de casi el 60% en la precisión de predicción de recursos y en la consistencia de la macro-situación del propio bando. Finalmente, proponemos StarWM-Agent, un sistema de decisión aumentado por un modelo del mundo que integra StarWM en un bucle de decisión Generar-Simular-Refinar para un refinamiento de la política impulsado por la previsión. La evaluación online contra la IA integrada de SC2 demuestra mejoras consistentes, produciendo ganancias en la tasa de victorias del 30%, 15% y 30% contra los niveles Difícil (NV5), Más Difícil (NV6) y Muy Difícil (NV7), respectivamente, junto con una mayor estabilidad en la macrogestión y una mejor evaluación del riesgo táctico.
English
Large Language Models (LLMs) have recently shown strong reasoning and generalization capabilities, motivating their use as decision-making policies in complex environments. StarCraft II (SC2), with its massive state-action space and partial observability, is a challenging testbed. However, existing LLM-based SC2 agents primarily focus on improving the policy itself and overlook integrating a learnable, action-conditioned transition model into the decision loop. To bridge this gap, we propose StarWM, the first world model for SC2 that predicts future observations under partial observability. To facilitate learning SC2's hybrid dynamics, we introduce a structured textual representation that factorizes observations into five semantic modules, and construct SC2-Dynamics-50k, the first instruction-tuning dataset for SC2 dynamics prediction. We further develop a multi-dimensional offline evaluation framework for predicted structured observations. Offline results show StarWM's substantial gains over zero-shot baselines, including nearly 60% improvements in resource prediction accuracy and self-side macro-situation consistency. Finally, we propose StarWM-Agent, a world-model-augmented decision system that integrates StarWM into a Generate--Simulate--Refine decision loop for foresight-driven policy refinement. Online evaluation against SC2's built-in AI demonstrates consistent improvements, yielding win-rate gains of 30%, 15%, and 30% against Hard (LV5), Harder (LV6), and VeryHard (LV7), respectively, alongside improved macro-management stability and tactical risk assessment.
PDF12February 21, 2026