Kinema4D : Modélisation cinématique 4D du monde pour la simulation incarnée spatiotemporelle

Résumé

La simulation des interactions robot-monde est une pierre angulaire de l'intelligence artificielle incarnée. Récemment, quelques travaux ont montré des résultats prometteurs en exploitant les générations vidéo pour transcender les contraintes visuelles/physiques rigides des simulateurs traditionnels. Cependant, ils opèrent principalement dans l'espace 2D ou sont guidés par des indices environnementaux statiques, ignorant la réalité fondamentale que les interactions robot-monde sont intrinsèquement des événements spatiotemporels 4D nécessitant une modélisation interactive précise. Pour restaurer cette essence 4D tout en garantissant un contrôle précis du robot, nous présentons Kinema4D, un nouveau simulateur robotique génératif 4D conditionné par l'action qui décompose l'interaction robot-monde en : i) Une représentation 4D précise des contrôles robotiques : nous pilotons un robot 3D basé sur URDF via la cinématique, produisant une trajectoire de contrôle robotique 4D précise. ii) Une modélisation générative 4D des réactions environnementales : nous projetons la trajectoire robotique 4D dans une carte de points comme signal visuel spatiotemporel, contrôlant le modèle génératif pour synthétiser la dynamique réactive d'environnements complexes en séquences synchronisées RVB/carte de points. Pour faciliter l'entraînement, nous avons constitué un jeu de données à grande échelle appelé Robo4D-200k, comprenant 201 426 épisodes d'interaction robotique avec des annotations 4D de haute qualité. Des expériences approfondies démontrent que notre méthode simule efficacement des interactions physiquement plausibles, géométriquement cohérentes et indépendantes de l'incarnation, reflétant fidèlement diverses dynamiques du monde réel. Pour la première fois, elle montre une capacité potentielle de transfert zero-shot, offrant une base de haute fidélité pour faire progresser la simulation incarnée de nouvelle génération.

English

Simulating robot-world interactions is a cornerstone of Embodied AI. Recently, a few works have shown promise in leveraging video generations to transcend the rigid visual/physical constraints of traditional simulators. However, they primarily operate in 2D space or are guided by static environmental cues, ignoring the fundamental reality that robot-world interactions are inherently 4D spatiotemporal events that require precise interactive modeling. To restore this 4D essence while ensuring the precise robot control, we introduce Kinema4D, a new action-conditioned 4D generative robotic simulator that disentangles the robot-world interaction into: i) Precise 4D representation of robot controls: we drive a URDF-based 3D robot via kinematics, producing a precise 4D robot control trajectory. ii) Generative 4D modeling of environmental reactions: we project the 4D robot trajectory into a pointmap as a spatiotemporal visual signal, controlling the generative model to synthesize complex environments' reactive dynamics into synchronized RGB/pointmap sequences. To facilitate training, we curated a large-scale dataset called Robo4D-200k, comprising 201,426 robot interaction episodes with high-quality 4D annotations. Extensive experiments demonstrate that our method effectively simulates physically-plausible, geometry-consistent, and embodiment-agnostic interactions that faithfully mirror diverse real-world dynamics. For the first time, it shows potential zero-shot transfer capability, providing a high-fidelity foundation for advancing next-generation embodied simulation.

Kinema4D : Modélisation cinématique 4D du monde pour la simulation incarnée spatiotemporelle

Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

Résumé

Support