Kinema4D: Modellazione Cinematica del Mondo in 4D per la Simulazione Spaziotemporale Incorporata
Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation
March 17, 2026
Autori: Mutian Xu, Tianbao Zhang, Tianqi Liu, Zhaoxi Chen, Xiaoguang Han, Ziwei Liu
cs.AI
Abstract
La simulazione delle interazioni robot-mondo è un pilastro fondamentale dell'Intelligenza Artificiale Embodied. Recentemente, alcuni lavori hanno mostrato potenzialità nell'utilizzare generazioni video per trascendere i rigidi vincoli visivi/fisici dei simulatori tradizionali. Tuttavia, essi operano principalmente in spazio 2D o sono guidati da segnali ambientali statici, ignorando la realtà fondamentale per cui le interazioni robot-mondo sono eventi spaziotemporali intrinsecamente 4D che richiedono una modellizzazione interattiva precisa. Per ripristinare questa essenza 4D garantendo al contempo un controllo preciso del robot, introduciamo Kinema4D, un nuovo simulatore robotico generativo 4D condizionato all'azione che scompone l'interazione robot-mondo in: i) Rappresentazione 4D precisa dei controlli robotici: guidiamo un robot 3D basato su URDF tramite cinematica, producendo una traiettoria di controllo robotica 4D precisa. ii) Modellazione generativa 4D delle reazioni ambientali: proiettiamo la traiettoria robotica 4D in una mappa di punti come segnale visivo spaziotemporale, controllando il modello generativo per sintetizzare le dinamiche reattive di ambienti complessi in sequenze sincronizzate RGB/mappa di punti. Per facilitare l'addestramento, abbiamo curato un dataset su larga scala chiamato Robo4D-200k, comprendente 201.426 episodi di interazione robotica con annotazioni 4D di alta qualità. Esperimenti estensivi dimostrano che il nostro metodo simula efficacemente interazioni fisicamente plausibili, geometricamente consistenti e indipendenti dall'embodiment che rispecchiano fedelmente le dinamiche del mondo reale. Per la prima volta, esso mostra una potenziale capacità di trasferimento zero-shot, fornendo una base ad alta fedeltà per far progredire la simulazione embodied di prossima generazione.
English
Simulating robot-world interactions is a cornerstone of Embodied AI. Recently, a few works have shown promise in leveraging video generations to transcend the rigid visual/physical constraints of traditional simulators. However, they primarily operate in 2D space or are guided by static environmental cues, ignoring the fundamental reality that robot-world interactions are inherently 4D spatiotemporal events that require precise interactive modeling. To restore this 4D essence while ensuring the precise robot control, we introduce Kinema4D, a new action-conditioned 4D generative robotic simulator that disentangles the robot-world interaction into: i) Precise 4D representation of robot controls: we drive a URDF-based 3D robot via kinematics, producing a precise 4D robot control trajectory. ii) Generative 4D modeling of environmental reactions: we project the 4D robot trajectory into a pointmap as a spatiotemporal visual signal, controlling the generative model to synthesize complex environments' reactive dynamics into synchronized RGB/pointmap sequences. To facilitate training, we curated a large-scale dataset called Robo4D-200k, comprising 201,426 robot interaction episodes with high-quality 4D annotations. Extensive experiments demonstrate that our method effectively simulates physically-plausible, geometry-consistent, and embodiment-agnostic interactions that faithfully mirror diverse real-world dynamics. For the first time, it shows potential zero-shot transfer capability, providing a high-fidelity foundation for advancing next-generation embodied simulation.