Kinema4D: Kinematische 4D-Weltmodellierung für räumlich-zeitliche verkörperte Simulation
Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation
March 17, 2026
Autoren: Mutian Xu, Tianbao Zhang, Tianqi Liu, Zhaoxi Chen, Xiaoguang Han, Ziwei Liu
cs.AI
Zusammenfassung
Die Simulation von Roboter-Umwelt-Interaktionen ist ein Grundpfeiler der Embodied AI. In jüngerer Zeit haben einige Arbeiten vielversprechende Ansätze gezeigt, um durch Videogenerierung die starren visuellen/physischen Grenzen traditioneller Simulatoren zu überwinden. Diese operieren jedoch primär im 2D-Raum oder werden durch statische Umgebungsreize gesteuert und ignorieren dabei die grundlegende Tatsache, dass Roboter-Umwelt-Interaktionen inhärent 4D-raumzeitliche Ereignisse sind, die eine präzise interaktive Modellierung erfordern. Um diese 4D-Essenz wiederherzustellen und gleichzeitig eine präzise Robotersteuerung zu gewährleisten, stellen wir Kinema4D vor, einen neuen aktionskonditionierten 4D-generativen Robotersimulator, der die Roboter-Umwelt-Interaktion in folgende Komponenten zerlegt: i) Präzise 4D-Darstellung der Robotersteuerung: Wir steuern einen URDF-basierten 3D-Roboter kinematisch an und erzeugen eine präzise 4D-Robotersteuerungstrajektorie. ii) Generative 4D-Modellierung von Umweltreaktionen: Wir projizieren die 4D-Robotertrajektorie in eine Punktwolke als raumzeitliches visuelles Signal, um das generative Modell so zu steuern, dass es die reaktive Dynamik komplexer Umgebungen in synchronisierte RGB-/Punktwolken-Sequenzen synthetisiert. Zur Unterstützung des Trainings haben wir einen umfangreichen Datensatz namens Robo4D-200k erstellt, der 201.426 Roboterinteraktions-Episoden mit hochwertigen 4D-Annotationen umfasst. Umfangreiche Experimente belegen, dass unsere Methode physikalisch plausible, geometriekonsistente und körperungspezifische Interaktionen effektiv simuliert, die die diversen Dynamiken der realen Welt treu widerspiegeln. Erstmals zeigt sie Potenzial für Zero-Shot-Transferfähigkeit und bietet somit eine hochpräzise Grundlage für die Entwicklung von Simulationen der nächsten Generation für verkörpertes Lernen.
English
Simulating robot-world interactions is a cornerstone of Embodied AI. Recently, a few works have shown promise in leveraging video generations to transcend the rigid visual/physical constraints of traditional simulators. However, they primarily operate in 2D space or are guided by static environmental cues, ignoring the fundamental reality that robot-world interactions are inherently 4D spatiotemporal events that require precise interactive modeling. To restore this 4D essence while ensuring the precise robot control, we introduce Kinema4D, a new action-conditioned 4D generative robotic simulator that disentangles the robot-world interaction into: i) Precise 4D representation of robot controls: we drive a URDF-based 3D robot via kinematics, producing a precise 4D robot control trajectory. ii) Generative 4D modeling of environmental reactions: we project the 4D robot trajectory into a pointmap as a spatiotemporal visual signal, controlling the generative model to synthesize complex environments' reactive dynamics into synchronized RGB/pointmap sequences. To facilitate training, we curated a large-scale dataset called Robo4D-200k, comprising 201,426 robot interaction episodes with high-quality 4D annotations. Extensive experiments demonstrate that our method effectively simulates physically-plausible, geometry-consistent, and embodiment-agnostic interactions that faithfully mirror diverse real-world dynamics. For the first time, it shows potential zero-shot transfer capability, providing a high-fidelity foundation for advancing next-generation embodied simulation.