Kinema4D: 時空間的具身体験シミュレーションのための運動学的4D世界モデリング
Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation
March 17, 2026
著者: Mutian Xu, Tianbao Zhang, Tianqi Liu, Zhaoxi Chen, Xiaoguang Han, Ziwei Liu
cs.AI
要旨
ロボットと環境の相互作用のシミュレーションは、具身AI(Embodied AI)の基盤をなす技術である。従来のシミュレータが持つ硬直的な視覚/物理的制約を超越するため、映像生成を活用する手法が近年いくつか提案され、有望な成果を示している。しかし、これらの手法は主に2D空間で動作するか、静的な環境手がかりに依存しており、ロボットと環境の相互作用が本質的に4次元時空間イベントであり、精密な相互作用モデリングを必要とするという根本的な現実を見過ごしている。この4次元の本質を回復しつつ、精密なロボット制御を保証するため、我々はKinema4Dを提案する。これは動作条件付きの4次元生成ロボットシミュレータであり、ロボットと環境の相互作用を以下に分離する:(i) ロボット制御の精密4次元表現:キネマティクスに基づきURDFベースの3Dロボットを駆動し、精密な4次元ロボット制御軌道を生成。(ii) 環境反応の生成的4次元モデリング:4次元ロボット軌道をポイントマップへ時空間視覚信号として投影し、生成モデルを制御して複雑な環境の反応的ダイナミクスを同期RGB/ポイントマップ系列として合成。学習を促進するため、20万1,426件のロボット相互作用エピソードと高品質な4次元注釈から成る大規模データセットRobo4D-200kを構築した。大規模な実験により、本手法が物理的に妥当で幾何学的一貫性があり、具身体構造に依存しない相互作用を効果的にシミュレートし、多様な実世界のダイナミクスを忠実に反映できることを実証した。本手法は初めてゼロショット転移の可能性を示し、次世代の具身シミュレーションの発展に向けた高精細な基盤を提供する。
English
Simulating robot-world interactions is a cornerstone of Embodied AI. Recently, a few works have shown promise in leveraging video generations to transcend the rigid visual/physical constraints of traditional simulators. However, they primarily operate in 2D space or are guided by static environmental cues, ignoring the fundamental reality that robot-world interactions are inherently 4D spatiotemporal events that require precise interactive modeling. To restore this 4D essence while ensuring the precise robot control, we introduce Kinema4D, a new action-conditioned 4D generative robotic simulator that disentangles the robot-world interaction into: i) Precise 4D representation of robot controls: we drive a URDF-based 3D robot via kinematics, producing a precise 4D robot control trajectory. ii) Generative 4D modeling of environmental reactions: we project the 4D robot trajectory into a pointmap as a spatiotemporal visual signal, controlling the generative model to synthesize complex environments' reactive dynamics into synchronized RGB/pointmap sequences. To facilitate training, we curated a large-scale dataset called Robo4D-200k, comprising 201,426 robot interaction episodes with high-quality 4D annotations. Extensive experiments demonstrate that our method effectively simulates physically-plausible, geometry-consistent, and embodiment-agnostic interactions that faithfully mirror diverse real-world dynamics. For the first time, it shows potential zero-shot transfer capability, providing a high-fidelity foundation for advancing next-generation embodied simulation.