WorldCraft: Von der Kameranavigation zur Objektmanipulation in interaktiven Videoweltmodellen

Zusammenfassung

Aktuelle videobasierte Weltmodelle haben Pixelraum-Umgebungen auf Kamerae Ebene interaktiv gemacht: Benutzer können Blickwinkel navigieren, während das Modell kohärente visuelle Fortsetzungen generiert. Dennoch bleiben ihre Aktionsräume unvollständig – Nutzer können die Kamera bewegen, aber nicht auf einzelne Objekte einwirken. Da reale Interaktion inhärent objektzentriert ist, ähneln solche Modelle eher passiven Szenenbeobachtern als wirklich manipulierbaren Umgebungen. Wir präsentieren WorldCraft, ein Framework, das interaktive Video-Weltmodelle von Kameranavigation zu Objekt-Trajektorien-Aktionen erweitert. Auf Basis eines Benutzerklicks und einer skizzierten Bahn generiert WorldCraft zukünftige Frames, in denen das ausgewählte Objekt der vorgegebenen Trajektorie folgt, während die Kamera weiterhin die Szene navigiert. WorldCraft erreicht dies durch eine trajektorienzentrierte Steuerungspipeline: Zunächst repräsentiert die Normalized World Trajectory (NWT) die nutzergezeichnete Bewegung in einem kamerainvarianten Weltkoordinatensystem und projiziert sie dynamisch unter der aktuellen Kamerapose neu, wodurch Objektbewegung von kamerabedingter Bildschirmverschiebung getrennt wird; Spatial-Pathway LoRA (SP-LoRA) injiziert dieses Weltraumsignal dann über den räumlichen Steuerungspfad des Modells und fügt Objektmanipulationsfähigkeit hinzu, während der vortrainierte Kameraregler erhalten bleibt; schließlich behandelt Trajectory-Anchored State Persistence (TASP) die Welt-Trajektorie als persistenten räumlichen Zustand und aktualisiert das autoregressive Gedächtnis nach der trajektorienbasierten Generierung, sodass bewegte Objekte nach Verlassen des Kamerabilds an ihren aktualisierten Positionen wieder erscheinen können. Experimente zeigen, dass WorldCraft präzise Objektsteuerung ermöglicht, die Kameragenauigkeit des videobasierten Weltmodells unter reiner Kameraevaluierung bewahrt und den Objektzustand über lange autoregressive Abfolgen mit kamerabildfernen Ausflügen aufrechterhält.

English

Recent video-based world models have made pixel-space environments interactive at the camera level: users can navigate viewpoints while the model generates coherent visual continuations. Yet their action spaces remain incomplete: users can move the camera, but cannot act on individual objects. Since real-world interaction is inherently object-centric, such models remain closer to passive scene observers than truly manipulable environments. We present WorldCraft, a framework that expands interactive video world models from camera navigation to object-level trajectory actions. Given a user click and a sketched path, WorldCraft generates future frames in which the selected object follows the prescribed trajectory while the camera continues to navigate the scene. WorldCraft achieves this through a trajectory-centric control pipeline: First, Normalized World Trajectory (NWT) represents user-drawn motion in a camera-invariant world coordinate system and dynamically re-projects it under the current camera pose, separating object motion from camera-induced screen-space displacement; Spatial-Pathway LoRA (SP-LoRA) then injects this world-space signal through the model's spatial-control pathway, adding object manipulation capability while preserving the pretrained camera controller; finally, Trajectory-Anchored State Persistence (TASP) treats the world trajectory as a persistent spatial state and refreshes autoregressive memory after trajectory-conditioned generation, allowing moved objects to reappear at their updated positions after leaving the camera view. Experiments show that WorldCraft enables accurate object control, preserves the video-based world model's camera fidelity under camera-only evaluation, and maintains object state across long autoregressive rollouts with off-camera excursions.