WorldCraft: от навигации камеры до манипуляции объектами в интерактивных видеомоделях мира

Аннотация

Недавние видеомодели мира, работающие на уровне пикселей, сделали возможным взаимодействие с виртуальными средами на уровне камеры: пользователи могут перемещать точку обзора, в то время как модель генерирует связные визуальные продолжения. Однако их пространства действий остаются неполными: пользователи могут двигать камеру, но не могут воздействовать на отдельные объекты. Поскольку взаимодействие в реальном мире по своей сути объектно-ориентировано, такие модели остаются скорее пассивными наблюдателями сцены, чем действительно манипулируемыми средами. Мы представляем WorldCraft — фреймворк, который расширяет интерактивные видеомодели мира от навигации камеры до траекторных действий на уровне объектов. При щелчке пользователя и набросанном пути WorldCraft генерирует будущие кадры, в которых выбранный объект следует заданной траектории, в то время как камера продолжает навигацию по сцене. WorldCraft достигает этого с помощью конвейера управления, ориентированного на траекторию. Во-первых, Нормализованная Мировая Траектория (NWT) представляет пользовательское движение в инвариантной к камере мировой системе координат и динамически перепроецирует его при текущем положении камеры, отделяя движение объекта от вызванного камерой смещения в экранном пространстве; затем Пространственно-Путевая LoRA (SP-LoRA) внедряет этот мировой сигнал через пространственный канал управления модели, добавляя возможность манипуляции объектом при сохранении предварительно обученного контроллера камеры; наконец, Анкорированная Траекторией Постоянная Состояния (TASP) рассматривает мировую траекторию как постоянное пространственное состояние и обновляет авторегрессионную память после генерации, обусловленной траекторией, позволяя перемещенным объектам снова появляться на обновленных позициях после выхода из поля зрения камеры. Эксперименты показывают, что WorldCraft обеспечивает точное управление объектами, сохраняет точность камеры видеомодели мира при оценке только по камере и поддерживает состояние объектов в течение длительных авторегрессионных разверток с выходами за пределы камеры.

English

Recent video-based world models have made pixel-space environments interactive at the camera level: users can navigate viewpoints while the model generates coherent visual continuations. Yet their action spaces remain incomplete: users can move the camera, but cannot act on individual objects. Since real-world interaction is inherently object-centric, such models remain closer to passive scene observers than truly manipulable environments. We present WorldCraft, a framework that expands interactive video world models from camera navigation to object-level trajectory actions. Given a user click and a sketched path, WorldCraft generates future frames in which the selected object follows the prescribed trajectory while the camera continues to navigate the scene. WorldCraft achieves this through a trajectory-centric control pipeline: First, Normalized World Trajectory (NWT) represents user-drawn motion in a camera-invariant world coordinate system and dynamically re-projects it under the current camera pose, separating object motion from camera-induced screen-space displacement; Spatial-Pathway LoRA (SP-LoRA) then injects this world-space signal through the model's spatial-control pathway, adding object manipulation capability while preserving the pretrained camera controller; finally, Trajectory-Anchored State Persistence (TASP) treats the world trajectory as a persistent spatial state and refreshes autoregressive memory after trajectory-conditioned generation, allowing moved objects to reappear at their updated positions after leaving the camera view. Experiments show that WorldCraft enables accurate object control, preserves the video-based world model's camera fidelity under camera-only evaluation, and maintains object state across long autoregressive rollouts with off-camera excursions.