Kinema4D: Modelado Cinemático 4D del Mundo para Simulación Espaciotemporal Corporizada

Resumen

La simulación de interacciones robot-mundo es un pilar fundamental de la Inteligencia Artificial Corporeizada. Recientemente, algunos trabajos han mostrado potencial al aprovechar generaciones de vídeo para trascender las rígidas restricciones visuales/físicas de los simuladores tradicionales. Sin embargo, operan principalmente en espacio 2D o están guiados por señales ambientales estáticas, ignorando la realidad fundamental de que las interacciones robot-mundo son eventos espacio-temporales 4D inherentes que requieren un modelado interactivo preciso. Para restaurar esta esencia 4D mientras se garantiza un control preciso del robot, presentamos Kinema4D, un nuevo simulador robótico generativo 4D condicionado por acciones que desglosa la interacción robot-mundo en: i) Representación 4D precisa de los controles del robot: impulsamos un robot 3D basado en URDF mediante cinemática, produciendo una trayectoria de control robótico 4D precisa. ii) Modelado generativo 4D de las reacciones ambientales: proyectamos la trayectoria robótica 4D en un mapa de puntos como señal visual espacio-temporal, controlando el modelo generativo para sintetizar la dinámica reactiva de entornos complejos en secuencias sincronizadas de RGB/mapa de puntos. Para facilitar el entrenamiento, hemos creado un conjunto de datos a gran escala llamado Robo4D-200k, que comprende 201,426 episodios de interacción robótica con anotaciones 4D de alta calidad. Experimentos exhaustivos demuestran que nuestro método simula efectivamente interacciones físicamente plausibles, geométricamente consistentes y agnósticas a la corporeización que reflejan fielmente diversas dinámicas del mundo real. Por primera vez, muestra capacidad potencial de transferencia *zero-shot*, proporcionando una base de alta fidelidad para avanzar en la próxima generación de simulación corporeizada.

English

Simulating robot-world interactions is a cornerstone of Embodied AI. Recently, a few works have shown promise in leveraging video generations to transcend the rigid visual/physical constraints of traditional simulators. However, they primarily operate in 2D space or are guided by static environmental cues, ignoring the fundamental reality that robot-world interactions are inherently 4D spatiotemporal events that require precise interactive modeling. To restore this 4D essence while ensuring the precise robot control, we introduce Kinema4D, a new action-conditioned 4D generative robotic simulator that disentangles the robot-world interaction into: i) Precise 4D representation of robot controls: we drive a URDF-based 3D robot via kinematics, producing a precise 4D robot control trajectory. ii) Generative 4D modeling of environmental reactions: we project the 4D robot trajectory into a pointmap as a spatiotemporal visual signal, controlling the generative model to synthesize complex environments' reactive dynamics into synchronized RGB/pointmap sequences. To facilitate training, we curated a large-scale dataset called Robo4D-200k, comprising 201,426 robot interaction episodes with high-quality 4D annotations. Extensive experiments demonstrate that our method effectively simulates physically-plausible, geometry-consistent, and embodiment-agnostic interactions that faithfully mirror diverse real-world dynamics. For the first time, it shows potential zero-shot transfer capability, providing a high-fidelity foundation for advancing next-generation embodied simulation.

Kinema4D: Modelado Cinemático 4D del Mundo para Simulación Espaciotemporal Corporizada

Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

Resumen

Support