VerseCrafter: Динамическая модель реалистичного видеомира с 4D-геометрическим контролем
VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control
January 8, 2026
Авторы: Sixiao Zheng, Minghao Yin, Wenbo Hu, Xiaoyu Li, Ying Shan, Yanwei Fu
cs.AI
Аннотация
Видеомодели мира призваны симулировать динамичные реальные среды, однако существующие методы не обеспечивают единообразного и точного управления движением камеры и множества объектов, поскольку видео по своей природе оперирует динамикой в проецируемой 2D-плоскости изображения. Для преодоления этого разрыва мы представляем VerseCrafter — 4D-ориентированную видеомодель мира, которая обеспечивает явное и согласованное управление как динамикой камеры, так и объектов в рамках единого 4D-геометрического состояния мира. Наш подход основан на новом представлении 4D Geometric Control, которое кодирует состояние мира через статичное облако точек фона и 3D-траектории Гаусса для каждого объекта. Это представление фиксирует не только путь объекта, но и его вероятностную 3D-занятость во времени, предлагая гибкую, категорийно-независимую альтернативу жёстким ограничивающим рамкам или параметрическим моделям. Данные 4D-элементы управления преобразуются в conditioning-сигналы для предобученной модели видеодиффузии, позволяя генерировать высокодетализированные, видово-согласованные видео, точно следующие заданной динамике. К сожалению, другая серьёзная проблема заключается в нехватке масштабных данных для обучения с явными 4D-аннотациями. Мы решаем это путём разработки автоматизированной системы обработки данных, которая извлекает необходимые 4D-элементы управления из произвольных видео, что позволяет обучать нашу модель на огромном и разнообразном наборе данных.
English
Video world models aim to simulate dynamic, real-world environments, yet existing methods struggle to provide unified and precise control over camera and multi-object motion, as videos inherently operate dynamics in the projected 2D image plane. To bridge this gap, we introduce VerseCrafter, a 4D-aware video world model that enables explicit and coherent control over both camera and object dynamics within a unified 4D geometric world state. Our approach is centered on a novel 4D Geometric Control representation, which encodes the world state through a static background point cloud and per-object 3D Gaussian trajectories. This representation captures not only an object's path but also its probabilistic 3D occupancy over time, offering a flexible, category-agnostic alternative to rigid bounding boxes or parametric models. These 4D controls are rendered into conditioning signals for a pretrained video diffusion model, enabling the generation of high-fidelity, view-consistent videos that precisely adhere to the specified dynamics. Unfortunately, another major challenge lies in the scarcity of large-scale training data with explicit 4D annotations. We address this by developing an automatic data engine that extracts the required 4D controls from in-the-wild videos, allowing us to train our model on a massive and diverse dataset.