WorldCraft: Da Navegação de Câmera à Manipulação de Objetos em Modelos de Mundo de Vídeo Interativos
WorldCraft: From Camera Navigation to Object Manipulation in Interactive Video World Models
May 24, 2026
Autores: Bohai Gu, Taiyi Wu, Yueyang Yuan, Jian Liu, Xiaocheng Lu, Dazhao Du, Jie Zhang, Jinxiang Lai, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo
cs.AI
Resumo
Modelos de mundo recentes baseados em vídeo tornaram ambientes no espaço de pixels interativos no nível da câmera: usuários podem navegar por pontos de vista enquanto o modelo gera continuações visuais coerentes. No entanto, seus espaços de ação permanecem incompletos: usuários podem mover a câmera, mas não podem agir sobre objetos individuais. Como a interação no mundo real é inerentemente centrada no objeto, tais modelos permanecem mais próximos de observadores passivos de cenas do que de ambientes verdadeiramente manipuláveis. Apresentamos o WorldCraft, uma estrutura que expande modelos de mundo interativos baseados em vídeo, da navegação da câmera para ações de trajetória no nível do objeto. Dado um clique do usuário e um caminho esboçado, o WorldCraft gera quadros futuros nos quais o objeto selecionado segue a trajetória prescrita enquanto a câmera continua a navegar pela cena. O WorldCraft alcança isso por meio de um pipeline de controle centrado na trajetória: Primeiro, a Trajetória de Mundo Normalizada (NWT) representa o movimento desenhado pelo usuário em um sistema de coordenadas de mundo invariante à câmera e o reprojeta dinamicamente sob a pose atual da câmera, separando o movimento do objeto do deslocamento no espaço da tela induzido pela câmera; em seguida, o LoRA de Caminho Espacial (SP-LoRA) injeta esse sinal do espaço do mundo através do caminho de controle espacial do modelo, adicionando capacidade de manipulação de objetos enquanto preserva o controlador de câmera pré-treinado; finalmente, a Persistência de Estado Ancorada na Trajetória (TASP) trata a trajetória do mundo como um estado espacial persistente e atualiza a memória autorregressiva após a geração condicionada pela trajetória, permitindo que objetos movidos reapareçam em suas posições atualizadas após saírem da vista da câmera. Experimentos mostram que o WorldCraft permite controle preciso de objetos, preserva a fidelidade da câmera do modelo de mundo baseado em vídeo sob avaliação apenas com controle de câmera e mantém o estado do objeto em longas execuções autorregressivas com excursões fora da câmera.
English
Recent video-based world models have made pixel-space environments interactive at the camera level: users can navigate viewpoints while the model generates coherent visual continuations. Yet their action spaces remain incomplete: users can move the camera, but cannot act on individual objects. Since real-world interaction is inherently object-centric, such models remain closer to passive scene observers than truly manipulable environments. We present WorldCraft, a framework that expands interactive video world models from camera navigation to object-level trajectory actions. Given a user click and a sketched path, WorldCraft generates future frames in which the selected object follows the prescribed trajectory while the camera continues to navigate the scene. WorldCraft achieves this through a trajectory-centric control pipeline: First, Normalized World Trajectory (NWT) represents user-drawn motion in a camera-invariant world coordinate system and dynamically re-projects it under the current camera pose, separating object motion from camera-induced screen-space displacement; Spatial-Pathway LoRA (SP-LoRA) then injects this world-space signal through the model's spatial-control pathway, adding object manipulation capability while preserving the pretrained camera controller; finally, Trajectory-Anchored State Persistence (TASP) treats the world trajectory as a persistent spatial state and refreshes autoregressive memory after trajectory-conditioned generation, allowing moved objects to reappear at their updated positions after leaving the camera view. Experiments show that WorldCraft enables accurate object control, preserves the video-based world model's camera fidelity under camera-only evaluation, and maintains object state across long autoregressive rollouts with off-camera excursions.