SCOPE: Simulando Operações Cross-game em Ambientes Jogáveis para World Models de FPS

Resumo

Modelos de mundo interativos para jogos de tiro em primeira pessoa (FPS) precisam resolver sinais de controle de alta frequência e sobrepostos a cada quadro sem perturbar regiões não afetadas. Métodos existentes injetam ações globalmente e treinam em títulos únicos, falhando sob entradas densas de FPS. Observamos que as ações em FPS são seletivas espacialmente: eventos discretos, como disparo ou recarga, afetam apenas uma região localizada ao redor da arma (o escopo), enquanto sinais contínuos de câmera e movimento governam ambientes estáveis. Propomos o SCOPE, que insere um módulo de condicionamento em cada bloco transformador de um modelo de difusão de vídeo pré-treinado. Ele reformata características em sequências temporais por pixel, de modo que cada posição calcule sua resposta de ação a partir do conteúdo visual local. Isso separa efeitos dentro do escopo da geração fora do escopo sem rótulos de segmentação. Também introduzimos o CrossFPS, o primeiro conjunto de dados FPS multijogo com telemetria de ação alinhada por quadro. Ele compreende 69 mil clipes de 7 títulos com sinais de controle de 10 graus de liberdade, curados para remover viés de jogabilidade. O modelo aprende mapeamentos gerais de visão para ação, em vez de padrões específicos de jogo, possibilitando transferência zero-shot para cenas não vistas. Experimentos confirmam forte responsividade a ações, separação precisa de escopo e generalização eficaz entre jogos.

English

Interactive world models for first-person shooter (FPS) games must resolve high-frequency overlapping control signals at every frame without disrupting unaffected regions. Existing methods inject actions globally and train on single titles, failing under dense FPS inputs. We observe that FPS actions are spatially selective: discrete events such as firing or reloading affect only a localized region around the weapon (the scope), while continuous camera and movement signals govern stable surroundings. We propose SCOPE, which inserts a conditioning module into each transformer block of a pretrained video diffusion model. It reshapes features into per-pixel temporal sequences so that each position computes its action response from local visual content. This separates in-scope effects from out-of-scope generation without segmentation labels. We also introduce CrossFPS, the first multi-game FPS dataset with frame-aligned action telemetry. It comprises 69K clips from 7 titles with 10-DoF controller signals, curated to remove gameplay bias. The model learns general visual-to-action mappings rather than game-specific patterns, enabling zero-shot transfer to unseen scenes. Experiments confirm strong action responsiveness, precise scope separation, and effective cross-game generalization.