Modelli Mondiali per l'Affinamento delle Politiche in StarCraft II

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno recentemente dimostrato forti capacità di ragionamento e generalizzazione, motivando il loro utilizzo come politiche decisionali in ambienti complessi. StarCraft II (SC2), con il suo enorme spazio di stati-azioni e l'osservabilità parziale, rappresenta un banco di prova impegnativo. Tuttavia, gli agenti SC2 basati su LLM esistenti si concentrano principalmente sul miglioramento della politica stessa e trascurano l'integrazione di un modello di transizione apprendibile e condizionato all'azione nel ciclo decisionale. Per colmare questa lacuna, proponiamo StarWM, il primo modello mondiale per SC2 in grado di prevedere le osservazioni future in condizioni di osservabilità parziale. Per facilitare l'apprendimento delle dinamiche ibride di SC2, introduciamo una rappresentazione testuale strutturata che scompone le osservazioni in cinque moduli semantici e costruiamo SC2-Dynamics-50k, il primo dataset di instruction-tuning per la previsione delle dinamiche di SC2. Sviluppiamo inoltre un framework di valutazione offline multidimensionale per le osservazioni strutturate previste. I risultati offline mostrano i sostanziali vantaggi di StarWM rispetto ai baseline zero-shot, inclusi miglioramenti di quasi il 60% nell'accuratezza della previsione delle risorse e nella coerenza della situazione macro del proprio lato. Infine, proponiamo StarWM-Agent, un sistema decisionale potenziato da un modello mondiale che integra StarWM in un ciclo decisionale Genera-Simula-Affina per un perfezionamento della politica guidato dalla previsione. La valutazione online contro l'IA integrata di SC2 dimostra miglioramenti costanti, con incrementi del tasso di vittoria del 30%, 15% e 30% rispettivamente contro i livelli Difficile (LV5), Più Difficile (LV6) e Molto Difficile (LV7), insieme a una maggiore stabilità nella macro-gestione e una migliore valutazione del rischio tattico.

English

Large Language Models (LLMs) have recently shown strong reasoning and generalization capabilities, motivating their use as decision-making policies in complex environments. StarCraft II (SC2), with its massive state-action space and partial observability, is a challenging testbed. However, existing LLM-based SC2 agents primarily focus on improving the policy itself and overlook integrating a learnable, action-conditioned transition model into the decision loop. To bridge this gap, we propose StarWM, the first world model for SC2 that predicts future observations under partial observability. To facilitate learning SC2's hybrid dynamics, we introduce a structured textual representation that factorizes observations into five semantic modules, and construct SC2-Dynamics-50k, the first instruction-tuning dataset for SC2 dynamics prediction. We further develop a multi-dimensional offline evaluation framework for predicted structured observations. Offline results show StarWM's substantial gains over zero-shot baselines, including nearly 60% improvements in resource prediction accuracy and self-side macro-situation consistency. Finally, we propose StarWM-Agent, a world-model-augmented decision system that integrates StarWM into a Generate--Simulate--Refine decision loop for foresight-driven policy refinement. Online evaluation against SC2's built-in AI demonstrates consistent improvements, yielding win-rate gains of 30%, 15%, and 30% against Hard (LV5), Harder (LV6), and VeryHard (LV7), respectively, alongside improved macro-management stability and tactical risk assessment.

Modelli Mondiali per l'Affinamento delle Politiche in StarCraft II

World Models for Policy Refinement in StarCraft II

Abstract

Support