WorldCraft: Desde la navegación de cámara hasta la manipulación de objetos en modelos interactivos de mundos de video
WorldCraft: From Camera Navigation to Object Manipulation in Interactive Video World Models
May 24, 2026
Autores: Bohai Gu, Taiyi Wu, Yueyang Yuan, Jian Liu, Xiaocheng Lu, Dazhao Du, Jie Zhang, Jinxiang Lai, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo
cs.AI
Resumen
Los modelos de mundo basados en video recientes han hecho que los entornos de espacio de píxeles sean interactivos a nivel de cámara: los usuarios pueden navegar por los puntos de vista mientras el modelo genera continuaciones visuales coherentes. Sin embargo, sus espacios de acción siguen siendo incompletos: los usuarios pueden mover la cámara, pero no pueden actuar sobre objetos individuales. Dado que la interacción en el mundo real es inherentemente centrada en objetos, estos modelos se asemejan más a observadores pasivos de la escena que a entornos verdaderamente manipulables. Presentamos WorldCraft, un marco que expande los modelos de mundo de video interactivos desde la navegación de cámara hasta acciones de trayectoria a nivel de objeto. Dado un clic del usuario y una ruta dibujada, WorldCraft genera fotogramas futuros en los que el objeto seleccionado sigue la trayectoria prescrita mientras la cámara continúa navegando la escena. WorldCraft logra esto mediante una tubería de control centrada en trayectorias: primero, la Trayectoria Mundial Normalizada (NWT, por sus siglas en inglés) representa el movimiento dibujado por el usuario en un sistema de coordenadas mundial invariante a la cámara y lo reproyecta dinámicamente bajo la pose actual de la cámara, separando el movimiento del objeto del desplazamiento en el espacio de pantalla inducido por la cámara; luego, el LoRA de Vía Espacial (SP-LoRA) inyecta esta señal del espacio mundial a través de la vía de control espacial del modelo, añadiendo capacidad de manipulación de objetos mientras preserva el controlador de cámara preentrenado; finalmente, la Persistencia de Estado Anclado a Trayectoria (TASP, por sus siglas en inglés) trata la trayectoria mundial como un estado espacial persistente y refresca la memoria autorregresiva tras la generación condicionada por trayectoria, permitiendo que los objetos movidos reaparezcan en sus posiciones actualizadas después de salir del campo de visión de la cámara. Los experimentos muestran que WorldCraft permite un control preciso de objetos, preserva la fidelidad de cámara del modelo de mundo basado en video bajo evaluación solo de cámara, y mantiene el estado del objeto a lo largo de despliegues autorregresivos largos con excursiones fuera de cámara.
English
Recent video-based world models have made pixel-space environments interactive at the camera level: users can navigate viewpoints while the model generates coherent visual continuations. Yet their action spaces remain incomplete: users can move the camera, but cannot act on individual objects. Since real-world interaction is inherently object-centric, such models remain closer to passive scene observers than truly manipulable environments. We present WorldCraft, a framework that expands interactive video world models from camera navigation to object-level trajectory actions. Given a user click and a sketched path, WorldCraft generates future frames in which the selected object follows the prescribed trajectory while the camera continues to navigate the scene. WorldCraft achieves this through a trajectory-centric control pipeline: First, Normalized World Trajectory (NWT) represents user-drawn motion in a camera-invariant world coordinate system and dynamically re-projects it under the current camera pose, separating object motion from camera-induced screen-space displacement; Spatial-Pathway LoRA (SP-LoRA) then injects this world-space signal through the model's spatial-control pathway, adding object manipulation capability while preserving the pretrained camera controller; finally, Trajectory-Anchored State Persistence (TASP) treats the world trajectory as a persistent spatial state and refreshes autoregressive memory after trajectory-conditioned generation, allowing moved objects to reappear at their updated positions after leaving the camera view. Experiments show that WorldCraft enables accurate object control, preserves the video-based world model's camera fidelity under camera-only evaluation, and maintains object state across long autoregressive rollouts with off-camera excursions.