ChatPaper.aiChatPaper

SCOPE: FPS 월드 모델을 위한 플레이 가능 환경에서의 크로스 게임 운용 시뮬레이션

SCOPE: Simulating Cross-game Operations in Playable Environments for FPS World Models

May 22, 2026
저자: Zizhao Tong, Hongfeng Lai, Zeqing Wang, Zhaohu Xing, Kexu Cheng, Haoran Xu, Zhao Pu, Shangwen Zhu, Ruili Feng, Jian Zhao, Yan Zhang, Hao Tang, Yeying Jin, Ling Shao
cs.AI

초록

1인칭 슈팅(FPS) 게임을 위한 인터랙티브 월드 모델은 격자 간격마다 발생하는 고주파 중첩 제어 신호를, 영향을 받지 않는 영역을 방해하지 않으면서 처리해야 한다. 기존 방법은 전역적으로 액션을 주입하고 단일 타이틀에 대해 학습하므로, 고밀도 FPS 입력에서는 제대로 작동하지 않는다. 본 연구에서는 FPS 액션이 공간적으로 선택적이라는 점에 주목한다: 발사나 재장전과 같은 이산적 이벤트는 무기 주변의 국소 영역(조준경 영역)에만 영향을 미치는 반면, 연속적인 카메라 및 이동 신호는 안정적인 주변 환경을 제어한다. 우리는 사전 학습된 비디오 확산 모델의 각 트랜스포머 블록에 조건화 모듈을 삽입하는 SCOPE를 제안한다. 이 모듈은 특징을 픽셀 단위 시계열로 재구성하여, 각 위치가 로컬 시각적 콘텐츠로부터 자체 액션 응답을 계산하도록 한다. 이를 통해 분할 레이블 없이도 조준경 내부 효과와 외부 생성 효과를 분리한다. 또한, 프레임 정렬 액션 원격 측정 데이터를 포함한 최초의 멀티 게임 FPS 데이터셋인 CrossFPS를 소개한다. CrossFPS는 7개 타이틀에서 수집된 69K 개의 클립과 10자유도 컨트롤러 신호로 구성되며, 게임플레이 편향을 제거하도록 선별되었다. 모델은 게임별 패턴이 아닌 일반적인 시각-액션 매핑을 학습하여, 보지 못한 장면에 대한 제로샷 전이를 가능하게 한다. 실험을 통해 강력한 액션 반응성, 정밀한 조준경 영역 분리, 효과적인 크로스 게임 일반화를 확인하였다.
English
Interactive world models for first-person shooter (FPS) games must resolve high-frequency overlapping control signals at every frame without disrupting unaffected regions. Existing methods inject actions globally and train on single titles, failing under dense FPS inputs. We observe that FPS actions are spatially selective: discrete events such as firing or reloading affect only a localized region around the weapon (the scope), while continuous camera and movement signals govern stable surroundings. We propose SCOPE, which inserts a conditioning module into each transformer block of a pretrained video diffusion model. It reshapes features into per-pixel temporal sequences so that each position computes its action response from local visual content. This separates in-scope effects from out-of-scope generation without segmentation labels. We also introduce CrossFPS, the first multi-game FPS dataset with frame-aligned action telemetry. It comprises 69K clips from 7 titles with 10-DoF controller signals, curated to remove gameplay bias. The model learns general visual-to-action mappings rather than game-specific patterns, enabling zero-shot transfer to unseen scenes. Experiments confirm strong action responsiveness, precise scope separation, and effective cross-game generalization.