SCOPE: Simuleren van Cross-game Operaties in Speelbare Omgevingen voor FPS-Wereldmodellen

Samenvatting

Interactieve wereldmodellen voor first-person shooter (FPS) spellen moeten op elk frame hoogfrequente overlappende besturingssignalen oplossen zonder de onaangetaste regio's te verstoren. Bestaande methoden voeren acties globaal in en trainen op enkele titels, wat faalt onder dichte FPS-invoer. Wij observeren dat FPS-acties ruimtelijk selectief zijn: discrete gebeurtenissen zoals vuren of herladen beïnvloeden slechts een gelokaliseerd gebied rond het wapen (de scope), terwijl continue camera- en bewegingssignalen stabiele omgevingen beheersen. Wij stellen SCOPE voor, dat een conditioneringmodule in elk transformatorblok van een voorgetraind videodiffusiemodel plaatst. Het hervormt kenmerken tot per-pixel temporele reeksen zodat elke positie zijn actierespons berekent op basis van lokale visuele inhoud. Dit scheidt effecten binnen de scope van generatie buiten de scope zonder segmentatielabels. We introduceren ook CrossFPS, de eerste multi-game FPS-dataset met frame-uitgelijnde actie-telemetrie. Het omvat 69K clips van 7 titels met 10-DoF controller-signalen, samengesteld om gameplay-bias te verwijderen. Het model leert algemene visueel-naar-actie mappings in plaats van spel-specifieke patronen, waardoor zero-shot overdracht naar ongeziene scènes mogelijk wordt. Experimenten bevestigen sterke actieresponsiviteit, precieze scopescheiding en effectieve cross-game generalisatie.

English

Interactive world models for first-person shooter (FPS) games must resolve high-frequency overlapping control signals at every frame without disrupting unaffected regions. Existing methods inject actions globally and train on single titles, failing under dense FPS inputs. We observe that FPS actions are spatially selective: discrete events such as firing or reloading affect only a localized region around the weapon (the scope), while continuous camera and movement signals govern stable surroundings. We propose SCOPE, which inserts a conditioning module into each transformer block of a pretrained video diffusion model. It reshapes features into per-pixel temporal sequences so that each position computes its action response from local visual content. This separates in-scope effects from out-of-scope generation without segmentation labels. We also introduce CrossFPS, the first multi-game FPS dataset with frame-aligned action telemetry. It comprises 69K clips from 7 titles with 10-DoF controller signals, curated to remove gameplay bias. The model learns general visual-to-action mappings rather than game-specific patterns, enabling zero-shot transfer to unseen scenes. Experiments confirm strong action responsiveness, precise scope separation, and effective cross-game generalization.