ChatPaper.aiChatPaper

Kinema4D: 시공간 구현 시뮬레이션을 위한 운동학적 4D 세계 모델링

Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

March 17, 2026
저자: Mutian Xu, Tianbao Zhang, Tianqi Liu, Zhaoxi Chen, Xiaoguang Han, Ziwei Liu
cs.AI

초록

로봇-환경 상호작용 시뮬레이션은 구현형 AI의 초석입니다. 최근 몇몇 연구에서는 비디오 생성 기술을 활용하여 기존 시뮬레이터의 경직된 시각적/물리적 제약을 넘어서려는 가능성을 보여주었습니다. 그러나 이러한 방법들은 주로 2D 공간에서 작동하거나 정적인 환경 단서에 의존하며, 로봇-환경 상호작용이 정밀한 상호작용 모델링을 필요로 하는 본질적으로 4D 시공간적 사건이라는 근본적인 현실을 간과하고 있습니다. 이러한 4D 본질을 복원하면서도 정확한 로봇 제어를 보장하기 위해, 우리는 Kinema4D라는 새로운 동작 조건부 4D 생성형 로봇 시뮬레이터를 소개합니다. 이 시뮬레이터는 로봇-환경 상호작용을 다음 두 가지로 분리합니다: i) 로봇 제어의 정밀한 4D 표현: 운동학을 통해 URDF 기반 3D 로봇을 구동하여 정밀한 4D 로봇 제어 궤적을 생성합니다. ii) 환경 반응의 생성형 4D 모델링: 4D 로봇 궤적을 포인트맵으로 투영하여 시공간적 시각 신호로 사용하며, 생성 모델을 제어하여 복잡한 환경의 반응적 역학을 동기화된 RGB/포인트맵 시퀀스로 합성합니다. 학습을 용이하게 하기 위해, 우리는 201,426개의 로봇 상호작용 에피소드와 고품질 4D 주석을 포함하는 대규모 데이터셋인 Robo4D-200k를 구축했습니다. 광범위한 실험을 통해 우리의 방법이 물리적으로 타당하고 기하학적으로 일관되며 구현체에 독립적인 상호작용을 효과적으로 시뮬레이션하여 다양한 실제 세계 역학을 충실히 반영함을 입증했습니다. 이는 최초로 제로샷 전이 가능성을 보여주며, 차세대 구현형 시뮬레이션 발전을 위한 고충실도 기반을 제공합니다.
English
Simulating robot-world interactions is a cornerstone of Embodied AI. Recently, a few works have shown promise in leveraging video generations to transcend the rigid visual/physical constraints of traditional simulators. However, they primarily operate in 2D space or are guided by static environmental cues, ignoring the fundamental reality that robot-world interactions are inherently 4D spatiotemporal events that require precise interactive modeling. To restore this 4D essence while ensuring the precise robot control, we introduce Kinema4D, a new action-conditioned 4D generative robotic simulator that disentangles the robot-world interaction into: i) Precise 4D representation of robot controls: we drive a URDF-based 3D robot via kinematics, producing a precise 4D robot control trajectory. ii) Generative 4D modeling of environmental reactions: we project the 4D robot trajectory into a pointmap as a spatiotemporal visual signal, controlling the generative model to synthesize complex environments' reactive dynamics into synchronized RGB/pointmap sequences. To facilitate training, we curated a large-scale dataset called Robo4D-200k, comprising 201,426 robot interaction episodes with high-quality 4D annotations. Extensive experiments demonstrate that our method effectively simulates physically-plausible, geometry-consistent, and embodiment-agnostic interactions that faithfully mirror diverse real-world dynamics. For the first time, it shows potential zero-shot transfer capability, providing a high-fidelity foundation for advancing next-generation embodied simulation.
PDF644March 19, 2026