WorldCraft: Da Navegação de Câmera à Manipulação de Objetos em Modelos de Mundo de Vídeo Interativos

Resumo

Modelos de mundo recentes baseados em vídeo tornaram ambientes no espaço de pixels interativos no nível da câmera: usuários podem navegar por pontos de vista enquanto o modelo gera continuações visuais coerentes. No entanto, seus espaços de ação permanecem incompletos: usuários podem mover a câmera, mas não podem agir sobre objetos individuais. Como a interação no mundo real é inerentemente centrada no objeto, tais modelos permanecem mais próximos de observadores passivos de cenas do que de ambientes verdadeiramente manipuláveis. Apresentamos o WorldCraft, uma estrutura que expande modelos de mundo interativos baseados em vídeo, da navegação da câmera para ações de trajetória no nível do objeto. Dado um clique do usuário e um caminho esboçado, o WorldCraft gera quadros futuros nos quais o objeto selecionado segue a trajetória prescrita enquanto a câmera continua a navegar pela cena. O WorldCraft alcança isso por meio de um pipeline de controle centrado na trajetória: Primeiro, a Trajetória de Mundo Normalizada (NWT) representa o movimento desenhado pelo usuário em um sistema de coordenadas de mundo invariante à câmera e o reprojeta dinamicamente sob a pose atual da câmera, separando o movimento do objeto do deslocamento no espaço da tela induzido pela câmera; em seguida, o LoRA de Caminho Espacial (SP-LoRA) injeta esse sinal do espaço do mundo através do caminho de controle espacial do modelo, adicionando capacidade de manipulação de objetos enquanto preserva o controlador de câmera pré-treinado; finalmente, a Persistência de Estado Ancorada na Trajetória (TASP) trata a trajetória do mundo como um estado espacial persistente e atualiza a memória autorregressiva após a geração condicionada pela trajetória, permitindo que objetos movidos reapareçam em suas posições atualizadas após saírem da vista da câmera. Experimentos mostram que o WorldCraft permite controle preciso de objetos, preserva a fidelidade da câmera do modelo de mundo baseado em vídeo sob avaliação apenas com controle de câmera e mantém o estado do objeto em longas execuções autorregressivas com excursões fora da câmera.

English

Recent video-based world models have made pixel-space environments interactive at the camera level: users can navigate viewpoints while the model generates coherent visual continuations. Yet their action spaces remain incomplete: users can move the camera, but cannot act on individual objects. Since real-world interaction is inherently object-centric, such models remain closer to passive scene observers than truly manipulable environments. We present WorldCraft, a framework that expands interactive video world models from camera navigation to object-level trajectory actions. Given a user click and a sketched path, WorldCraft generates future frames in which the selected object follows the prescribed trajectory while the camera continues to navigate the scene. WorldCraft achieves this through a trajectory-centric control pipeline: First, Normalized World Trajectory (NWT) represents user-drawn motion in a camera-invariant world coordinate system and dynamically re-projects it under the current camera pose, separating object motion from camera-induced screen-space displacement; Spatial-Pathway LoRA (SP-LoRA) then injects this world-space signal through the model's spatial-control pathway, adding object manipulation capability while preserving the pretrained camera controller; finally, Trajectory-Anchored State Persistence (TASP) treats the world trajectory as a persistent spatial state and refreshes autoregressive memory after trajectory-conditioned generation, allowing moved objects to reappear at their updated positions after leaving the camera view. Experiments show that WorldCraft enables accurate object control, preserves the video-based world model's camera fidelity under camera-only evaluation, and maintains object state across long autoregressive rollouts with off-camera excursions.