ChatPaper.aiChatPaper

WorldCraft: 상호작용형 비디오 월드 모델에서의 카메라 내비게이션에서 객체 조작으로

WorldCraft: From Camera Navigation to Object Manipulation in Interactive Video World Models

May 24, 2026
저자: Bohai Gu, Taiyi Wu, Yueyang Yuan, Jian Liu, Xiaocheng Lu, Dazhao Du, Jie Zhang, Jinxiang Lai, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo
cs.AI

초록

최근 비디오 기반 세계 모델은 픽셀 공간 환경을 카메라 수준에서 상호작용 가능하게 만들었습니다. 사용자는 모델이 일관된 시각적 연속성을 생성하는 동안 시점을 탐색할 수 있습니다. 그러나 이들의 행동 공간은 여전히 불완전합니다. 사용자는 카메라를 움직일 수 있지만 개별 객체에 대해 행동할 수 없습니다. 실제 세계 상호작용은 본질적으로 객체 중심적이기 때문에, 이러한 모델은 진정으로 조작 가능한 환경이라기보다는 수동적인 장면 관찰자에 가깝습니다. 우리는 상호작용형 비디오 세계 모델을 카메라 탐색에서 객체 수준 궤적 행동으로 확장하는 프레임워크인 WorldCraft를 제시합니다. 사용자 클릭과 스케치된 경로가 주어지면 WorldCraft는 선택된 객체가 지정된 궤적을 따르면서 카메라가 계속해서 장면을 탐색하는 미래 프레임을 생성합니다. WorldCraft는 궤적 중심 제어 파이프라인을 통해 이를 달성합니다. 첫째, 정규화된 세계 궤적(NWT)은 카메라 불변 세계 좌표계에서 사용자가 그린 움직임을 나타내고 현재 카메라 포즈 아래에서 동적으로 재투영하여 객체 움직임을 카메라 유발 화면 공간 변위와 분리합니다. 그런 다음 공간 경로 LoRA(SP-LoRA)는 이 세계 공간 신호를 모델의 공간 제어 경로를 통해 주입하여 사전 훈련된 카메라 제어기를 유지하면서 객체 조작 기능을 추가합니다. 마지막으로 궤적 고정 상태 지속성(TASP)은 세계 궤적을 지속적인 공간 상태로 처리하고 궤적 조건부 생성 후 자기회귀 메모리를 새로고침하여 이동된 객체가 카메라 뷰를 벗어난 후 업데이트된 위치에 다시 나타날 수 있도록 합니다. 실험 결과에 따르면 WorldCraft는 정확한 객체 제어를 가능하게 하고, 카메라 전용 평가에서 비디오 기반 세계 모델의 카메라 충실도를 유지하며, 카메라 외부 이동이 있는 긴 자기회귀 롤아웃에서 객체 상태를 유지합니다.
English
Recent video-based world models have made pixel-space environments interactive at the camera level: users can navigate viewpoints while the model generates coherent visual continuations. Yet their action spaces remain incomplete: users can move the camera, but cannot act on individual objects. Since real-world interaction is inherently object-centric, such models remain closer to passive scene observers than truly manipulable environments. We present WorldCraft, a framework that expands interactive video world models from camera navigation to object-level trajectory actions. Given a user click and a sketched path, WorldCraft generates future frames in which the selected object follows the prescribed trajectory while the camera continues to navigate the scene. WorldCraft achieves this through a trajectory-centric control pipeline: First, Normalized World Trajectory (NWT) represents user-drawn motion in a camera-invariant world coordinate system and dynamically re-projects it under the current camera pose, separating object motion from camera-induced screen-space displacement; Spatial-Pathway LoRA (SP-LoRA) then injects this world-space signal through the model's spatial-control pathway, adding object manipulation capability while preserving the pretrained camera controller; finally, Trajectory-Anchored State Persistence (TASP) treats the world trajectory as a persistent spatial state and refreshes autoregressive memory after trajectory-conditioned generation, allowing moved objects to reappear at their updated positions after leaving the camera view. Experiments show that WorldCraft enables accurate object control, preserves the video-based world model's camera fidelity under camera-only evaluation, and maintains object state across long autoregressive rollouts with off-camera excursions.