VerseCrafter: Dynamisch Realistisch Videowereldmodel met 4D Geometrische Controle

Samenvatting

Video-wereldmodellen streven ernaar dynamische, realistische omgevingen te simuleren, maar bestaande methoden slagen er niet in om geünificeerde en precieze controle te bieden over camera- en multi-objectbeweging, omdat video's inherent dynamica in het geprojecteerde 2D-beeldvlak afspelen. Om deze kloof te overbruggen, introduceren we VerseCrafter, een 4D-bewust videowereldmodel dat expliciete en coherente controle mogelijk maakt over zowel camera- als objectdynamica binnen een geünificeerde 4D-geometrische wereldtoestand. Onze aanpak is gecentreerd rond een nieuwe 4D Geometric Control-representatie, die de wereldtoestand codeert via een statische point cloud voor de achtergrond en 3D Gauss-trajecten per object. Deze representatie vangt niet alleen het pad van een object, maar ook diens probabilistische 3D-occupatie over tijd, en biedt zo een flexibel, categorie-agnostisch alternatief voor rigide bounding boxes of parametrische modellen. Deze 4D-controles worden gerenderd als conditioneringssignalen voor een voorgetraind videodiffusiemodel, waardoor het genereren van hoogwaardige, viewpoint-consistente video's die precies aan de gespecificeerde dynamica voldoen, mogelijk wordt. Een andere grote uitdaging ligt helaas in de schaarste van grootschalige trainingsdata met expliciete 4D-annotaties. Dit lossen we op door een automatische data-engine te ontwikkelen die de benodigde 4D-controles uit in-the-wild video's extraheert, waardoor we ons model kunnen trainen op een enorme en diverse dataset.

English

Video world models aim to simulate dynamic, real-world environments, yet existing methods struggle to provide unified and precise control over camera and multi-object motion, as videos inherently operate dynamics in the projected 2D image plane. To bridge this gap, we introduce VerseCrafter, a 4D-aware video world model that enables explicit and coherent control over both camera and object dynamics within a unified 4D geometric world state. Our approach is centered on a novel 4D Geometric Control representation, which encodes the world state through a static background point cloud and per-object 3D Gaussian trajectories. This representation captures not only an object's path but also its probabilistic 3D occupancy over time, offering a flexible, category-agnostic alternative to rigid bounding boxes or parametric models. These 4D controls are rendered into conditioning signals for a pretrained video diffusion model, enabling the generation of high-fidelity, view-consistent videos that precisely adhere to the specified dynamics. Unfortunately, another major challenge lies in the scarcity of large-scale training data with explicit 4D annotations. We address this by developing an automatic data engine that extracts the required 4D controls from in-the-wild videos, allowing us to train our model on a massive and diverse dataset.

VerseCrafter: Dynamisch Realistisch Videowereldmodel met 4D Geometrische Controle

VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control

Samenvatting

Support