WorldCraft: Van cameranavigatie tot objectmanipulatie in interactieve videowereldmodellen
WorldCraft: From Camera Navigation to Object Manipulation in Interactive Video World Models
May 24, 2026
Auteurs: Bohai Gu, Taiyi Wu, Yueyang Yuan, Jian Liu, Xiaocheng Lu, Dazhao Du, Jie Zhang, Jinxiang Lai, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo
cs.AI
Samenvatting
Recente videogebaseerde wereldmodellen hebben pixel-omgevingen interactief gemaakt op cameraniveau: gebruikers kunnen door gezichtspunten navigeren terwijl het model coherente visuele voortzettingen genereert. Toch blijven hun actieruimten onvolledig: gebruikers kunnen de camera verplaatsen, maar niet handelen op individuele objecten. Omdat interactie in de echte wereld inherent objectgericht is, blijven dergelijke modellen dichter bij passieve waarnemers van scènes dan bij werkelijk manipuleerbare omgevingen. Wij presenteren WorldCraft, een raamwerk dat interactieve videowereldmodellen uitbreidt van cameranavigatie naar objectniveau-trajectacties. Gegeven een gebruikersklik en een getekend pad, genereert WorldCraft toekomstige frames waarin het geselecteerde object het voorgeschreven traject volgt terwijl de camera de scène blijft verkennen. WorldCraft bereikt dit via een trajectgecentreerde besturingspijplijn: Ten eerste stelt Normalized World Trajectory (NWT) de door de gebruiker getekende beweging voor in een camerainvariant wereldcoördinatensysteem en projecteert het deze dynamisch opnieuw onder de huidige camerapositie, waardoor objectbeweging wordt gescheiden van door camera veroorzaakte schermverschuiving; Spatial-Pathway LoRA (SP-LoRA) injecteert vervolgens dit wereldruimtesignaal via de ruimtelijke besturingsroute van het model, waardoor objectmanipulatie mogelijk wordt gemaakt terwijl de vooraf getrainde camerabesturing behouden blijft; ten slotte behandelt Trajectory-Anchored State Persistence (TASP) het wereldtraject als een persistente ruimtelijke toestand en ververst het het autoregressieve geheugen na trajectgestuurde generatie, zodat verplaatste objecten opnieuw verschijnen op hun bijgewerkte posities nadat ze uit het camerabeeld zijn verdwenen. Experimenten tonen aan dat WorldCraft nauwkeurige objectbesturing mogelijk maakt, de camerabetrouwbaarheid van het videogebaseerde wereldmodel behoudt onder cameragebaseerde evaluatie, en de objecttoestand handhaaft over lange autoregressieve uitrolsessies met verplaatsingen buiten beeld.
English
Recent video-based world models have made pixel-space environments interactive at the camera level: users can navigate viewpoints while the model generates coherent visual continuations. Yet their action spaces remain incomplete: users can move the camera, but cannot act on individual objects. Since real-world interaction is inherently object-centric, such models remain closer to passive scene observers than truly manipulable environments. We present WorldCraft, a framework that expands interactive video world models from camera navigation to object-level trajectory actions. Given a user click and a sketched path, WorldCraft generates future frames in which the selected object follows the prescribed trajectory while the camera continues to navigate the scene. WorldCraft achieves this through a trajectory-centric control pipeline: First, Normalized World Trajectory (NWT) represents user-drawn motion in a camera-invariant world coordinate system and dynamically re-projects it under the current camera pose, separating object motion from camera-induced screen-space displacement; Spatial-Pathway LoRA (SP-LoRA) then injects this world-space signal through the model's spatial-control pathway, adding object manipulation capability while preserving the pretrained camera controller; finally, Trajectory-Anchored State Persistence (TASP) treats the world trajectory as a persistent spatial state and refreshes autoregressive memory after trajectory-conditioned generation, allowing moved objects to reappear at their updated positions after leaving the camera view. Experiments show that WorldCraft enables accurate object control, preserves the video-based world model's camera fidelity under camera-only evaluation, and maintains object state across long autoregressive rollouts with off-camera excursions.