SCOPE: Simulación de Operaciones entre Juegos en Entornos Jugables para Modelos de Mundo de FPS

Resumen

Los modelos de mundo interactivos para juegos de disparos en primera persona (FPS) deben resolver señales de control superpuestas de alta frecuencia en cada fotograma sin perturbar las regiones no afectadas. Los métodos existentes inyectan acciones de forma global y se entrenan en títulos individuales, fallando bajo entradas densas de FPS. Observamos que las acciones en FPS son espacialmente selectivas: eventos discretos como disparar o recargar afectan solo una región localizada alrededor del arma (el alcance), mientras que las señales continuas de cámara y movimiento gobiernan entornos estables. Proponemos SCOPE, que inserta un módulo de condicionamiento en cada bloque transformer de un modelo de difusión de video preentrenado. Este remodela las características en secuencias temporales por píxel, de modo que cada posición calcula su respuesta a la acción a partir del contenido visual local. Esto separa los efectos dentro del alcance de la generación fuera del alcance sin etiquetas de segmentación. También introducimos CrossFPS, el primer conjunto de datos de FPS multijuego con telemetría de acciones alineada con fotogramas. Comprende 69K clips de 7 títulos con señales de control de 10 grados de libertad, curados para eliminar el sesgo de jugabilidad. El modelo aprende mapeos visuales a acciones generales en lugar de patrones específicos de cada juego, lo que permite la transferencia de aprendizaje cero a escenas no vistas. Los experimentos confirman una fuerte capacidad de respuesta a las acciones, una separación precisa del alcance y una generalización efectiva entre juegos.

English

Interactive world models for first-person shooter (FPS) games must resolve high-frequency overlapping control signals at every frame without disrupting unaffected regions. Existing methods inject actions globally and train on single titles, failing under dense FPS inputs. We observe that FPS actions are spatially selective: discrete events such as firing or reloading affect only a localized region around the weapon (the scope), while continuous camera and movement signals govern stable surroundings. We propose SCOPE, which inserts a conditioning module into each transformer block of a pretrained video diffusion model. It reshapes features into per-pixel temporal sequences so that each position computes its action response from local visual content. This separates in-scope effects from out-of-scope generation without segmentation labels. We also introduce CrossFPS, the first multi-game FPS dataset with frame-aligned action telemetry. It comprises 69K clips from 7 titles with 10-DoF controller signals, curated to remove gameplay bias. The model learns general visual-to-action mappings rather than game-specific patterns, enabling zero-shot transfer to unseen scenes. Experiments confirm strong action responsiveness, precise scope separation, and effective cross-game generalization.