ChatPaper.aiChatPaper

WorldCraft : de la navigation par caméra à la manipulation d'objets dans les modèles de monde vidéo interactifs

WorldCraft: From Camera Navigation to Object Manipulation in Interactive Video World Models

May 24, 2026
Auteurs: Bohai Gu, Taiyi Wu, Yueyang Yuan, Jian Liu, Xiaocheng Lu, Dazhao Du, Jie Zhang, Jinxiang Lai, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo
cs.AI

Résumé

Les récents modèles de monde basés sur la vidéo ont rendu les environnements au niveau des pixels interactifs à l’échelle de la caméra : les utilisateurs peuvent naviguer dans les points de vue tandis que le modèle génère des continuations visuelles cohérentes. Pourtant, leurs espaces d’action restent incomplets : les utilisateurs peuvent déplacer la caméra, mais ne peuvent pas agir sur des objets individuels. Étant donné que l’interaction dans le monde réel est intrinsèquement centrée sur les objets, ces modèles s’apparentent davantage à des observateurs passifs de scènes qu’à des environnements véritablement manipulables. Nous présentons WorldCraft, un framework qui étend les modèles de monde vidéo interactifs de la navigation par caméra aux actions de trajectoire au niveau des objets. À partir d’un clic utilisateur et d’un chemin esquissé, WorldCraft génère des images futures dans lesquelles l’objet sélectionné suit la trajectoire prescrite tandis que la caméra continue de naviguer dans la scène. WorldCraft y parvient grâce à un pipeline de contrôle centré sur la trajectoire : d’abord, la Normalized World Trajectory (NWT) représente le mouvement tracé par l’utilisateur dans un système de coordonnées mondiales invariant par rapport à la caméra et le reprojette dynamiquement sous la pose actuelle de la caméra, séparant ainsi le mouvement de l’objet du déplacement dans l’écran induit par la caméra ; ensuite, Spatial-Pathway LoRA (SP-LoRA) injecte ce signal dans l’espace mondial via la voie de contrôle spatial du modèle, ajoutant une capacité de manipulation d’objets tout en préservant le contrôleur de caméra pré-entraîné ; enfin, Trajectory-Anchored State Persistence (TASP) traite la trajectoire mondiale comme un état spatial persistant et actualise la mémoire autorégressive après une génération conditionnée par la trajectoire, permettant aux objets déplacés de réapparaître à leurs positions mises à jour après avoir quitté le champ de la caméra. Les expériences montrent que WorldCraft permet un contrôle précis des objets, préserve la fidélité de la caméra du modèle de monde vidéo lors d’évaluations uniquement basées sur la caméra et maintient l’état des objets lors de longs déroulements autorégressifs avec des excursions hors champ.
English
Recent video-based world models have made pixel-space environments interactive at the camera level: users can navigate viewpoints while the model generates coherent visual continuations. Yet their action spaces remain incomplete: users can move the camera, but cannot act on individual objects. Since real-world interaction is inherently object-centric, such models remain closer to passive scene observers than truly manipulable environments. We present WorldCraft, a framework that expands interactive video world models from camera navigation to object-level trajectory actions. Given a user click and a sketched path, WorldCraft generates future frames in which the selected object follows the prescribed trajectory while the camera continues to navigate the scene. WorldCraft achieves this through a trajectory-centric control pipeline: First, Normalized World Trajectory (NWT) represents user-drawn motion in a camera-invariant world coordinate system and dynamically re-projects it under the current camera pose, separating object motion from camera-induced screen-space displacement; Spatial-Pathway LoRA (SP-LoRA) then injects this world-space signal through the model's spatial-control pathway, adding object manipulation capability while preserving the pretrained camera controller; finally, Trajectory-Anchored State Persistence (TASP) treats the world trajectory as a persistent spatial state and refreshes autoregressive memory after trajectory-conditioned generation, allowing moved objects to reappear at their updated positions after leaving the camera view. Experiments show that WorldCraft enables accurate object control, preserves the video-based world model's camera fidelity under camera-only evaluation, and maintains object state across long autoregressive rollouts with off-camera excursions.