SCOPE : Simulation d'opérations inter-jeux dans des environnements jouables pour les modèles du monde FPS

Résumé

Les modèles de monde interactifs pour les jeux de tir à la première personne (FPS) doivent résoudre des signaux de contrôle superposés à haute fréquence à chaque image sans perturber les régions non affectées. Les méthodes existantes injectent des actions globalement et s’entraînent sur des titres uniques, échouant sous des entrées FPS denses. Nous observons que les actions FPS sont sélectives spatialement : les événements discrets tels que le tir ou le rechargement n’affectent qu’une région localisée autour de l’arme (la portée), tandis que les signaux de caméra et de mouvement continus gouvernent les environnements stables. Nous proposons SCOPE, qui insère un module de conditionnement dans chaque bloc transformer d’un modèle de diffusion vidéo pré-entraîné. Il remodèle les caractéristiques en séquences temporelles par pixel afin que chaque position calcule sa réponse d’action à partir du contenu visuel local. Cela sépare les effets dans la portée de la génération hors portée sans étiquettes de segmentation. Nous introduisons également CrossFPS, le premier ensemble de données multi-jeux FPS avec télémétrie d’action alignée sur les images. Il comprend 69 000 clips provenant de 7 titres avec des signaux de contrôle à 10 degrés de liberté, organisés pour éliminer les biais de jeu. Le modèle apprend des correspondances visuelles-actions générales plutôt que des motifs spécifiques à chaque jeu, permettant un transfert zero-shot vers des scènes non vues. Les expériences confirment une forte réactivité aux actions, une séparation précise de la portée et une généralisation efficace entre jeux.

English

Interactive world models for first-person shooter (FPS) games must resolve high-frequency overlapping control signals at every frame without disrupting unaffected regions. Existing methods inject actions globally and train on single titles, failing under dense FPS inputs. We observe that FPS actions are spatially selective: discrete events such as firing or reloading affect only a localized region around the weapon (the scope), while continuous camera and movement signals govern stable surroundings. We propose SCOPE, which inserts a conditioning module into each transformer block of a pretrained video diffusion model. It reshapes features into per-pixel temporal sequences so that each position computes its action response from local visual content. This separates in-scope effects from out-of-scope generation without segmentation labels. We also introduce CrossFPS, the first multi-game FPS dataset with frame-aligned action telemetry. It comprises 69K clips from 7 titles with 10-DoF controller signals, curated to remove gameplay bias. The model learns general visual-to-action mappings rather than game-specific patterns, enabling zero-shot transfer to unseen scenes. Experiments confirm strong action responsiveness, precise scope separation, and effective cross-game generalization.