ChatPaper.aiChatPaper

WorldCam: 카메라 포즈를 통합 기하학적 표현으로 활용하는 인터랙티브 자동회귀 3D 게임 월드

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

March 17, 2026
저자: Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, Feng Liu, JoungBin Lee, Jiyoung Kim, Siyoon Jin, Yunsung Lee, Jaeyoon Jung, Suhwan Choi, Seungryong Kim, Yang Zhou
cs.AI

초록

비디오 확산 트랜스포머의 최근 발전으로 사용자가 생성된 환경을 장기간에 걸쳐 탐색할 수 있는 인터랙티브 게임 월드 모델이 가능해졌습니다. 그러나 기존 접근법은 정확한 행동 제어와 장기적 3D 일관성 유지에 어려움을 겪고 있습니다. 대부분의 기존 연구는 사용자 행동을 추상적인 조건화 신호로 취급하여, 행동이 상대적인 카메라 운동을 유발하고 이 운동이 3D 세계 내에서 글로벌 카메라 포즈로 누적되는 행동과 3D 세계 간의 근본적인 기하학적 결합 관계를 간과해 왔습니다. 본 논문에서는 즉각적인 행동 제어와 장기적 3D 일관성을 공동으로 구현하기 위한 통합 기하학적 표현으로 카메라 포즈를 정립합니다. 첫째, 물리 기반의 연속 행동 공간을 정의하고 리 대수에서 사용자 입력을 표현하여 정밀한 6자유도 카메라 포즈를 도출하며, 이를 카메라 임베더를 통해 생성 모델에 주입하여 정확한 행동 정렬을 보장합니다. 둘째, 글로벌 카메라 포즈를 공간 인덱스로 활용하여 관련 과거 관측치를 검색함으로써 장기적 탐색 중 위치의 기하학적 일관성을 유지하며 재방문이 가능하도록 합니다. 본 연구를 지원하기 위해 카메라 궤적과 텍스트 설명이 주석 처리된 3,000분 분량의 실제 인간 게임 플레이로 구성된 대규모 데이터셋을 도입했습니다. 광범위한 실험을 통해 우리의 접근 방식이 행동 제어성, 장기적 시각적 품질, 3D 공간 일관성에서 최첨단 인터랙티브 게임 월드 모델을 크게 능가함을 보여줍니다.
English
Recent advances in video diffusion transformers have enabled interactive gaming world models that allow users to explore generated environments over extended horizons. However, existing approaches struggle with precise action control and long-horizon 3D consistency. Most prior works treat user actions as abstract conditioning signals, overlooking the fundamental geometric coupling between actions and the 3D world, whereby actions induce relative camera motions that accumulate into a global camera pose within a 3D world. In this paper, we establish camera pose as a unifying geometric representation to jointly ground immediate action control and long-term 3D consistency. First, we define a physics-based continuous action space and represent user inputs in the Lie algebra to derive precise 6-DoF camera poses, which are injected into the generative model via a camera embedder to ensure accurate action alignment. Second, we use global camera poses as spatial indices to retrieve relevant past observations, enabling geometrically consistent revisiting of locations during long-horizon navigation. To support this research, we introduce a large-scale dataset comprising 3,000 minutes of authentic human gameplay annotated with camera trajectories and textual descriptions. Extensive experiments show that our approach substantially outperforms state-of-the-art interactive gaming world models in action controllability, long-horizon visual quality, and 3D spatial consistency.
PDF512March 19, 2026