Kinema4D: Кинематическое 4D-моделирование мира для пространственно-временного эмбодированного моделирования

Аннотация

Моделирование взаимодействий робота с окружающим миром является краеугольным камнем воплощенного ИИ. Недавно несколько работ показали перспективность использования генерации видео для преодоления жестких визуальных/физических ограничений традиционных симуляторов. Однако они в основном работают в 2D-пространстве или управляются статическими средовыми сигналами, игнорируя фундаментальную реальность: взаимодействия робота с миром по своей природе являются 4D-пространственно-временными событиями, требующими точного интерактивного моделирования. Чтобы восстановить эту 4D-сущность, обеспечивая при этом точное управление роботом, мы представляем Kinema4D — новый 4D-генеративный роботизированный симулятор, обусловленный действиями, который разделяет взаимодействие робота с миром на: i) Точное 4D-представление управляющих сигналов робота: мы управляем 3D-роботом на основе URDF через кинематику, создавая точную 4D-траекторию управления. ii) Генеративное 4D-моделирование реакций среды: мы проецируем 4D-траекторию робота в карту точек как пространственно-временной визуальный сигнал, управляя генеративной моделью для синтеза реактивной динамики сложных сред в синхронизированные последовательности RGB/карт точек. Для облегчения обучения мы создали крупномасштабный набор данных Robo4D-200k, содержащий 201 426 эпизодов взаимодействия роботов с высококачественными 4D-аннотациями. Многочисленные эксперименты демонстрируют, что наш метод эффективно моделирует физически правдоподобные, геометрически согласованные и независимые от воплощения взаимодействия, которые достоверно отражают разнообразную динамику реального мира. Впервые показана потенциальная возможность zero-shot переноса, что закладывает высокоточную основу для развития симуляторов воплощенного интеллекта следующего поколения.

English

Simulating robot-world interactions is a cornerstone of Embodied AI. Recently, a few works have shown promise in leveraging video generations to transcend the rigid visual/physical constraints of traditional simulators. However, they primarily operate in 2D space or are guided by static environmental cues, ignoring the fundamental reality that robot-world interactions are inherently 4D spatiotemporal events that require precise interactive modeling. To restore this 4D essence while ensuring the precise robot control, we introduce Kinema4D, a new action-conditioned 4D generative robotic simulator that disentangles the robot-world interaction into: i) Precise 4D representation of robot controls: we drive a URDF-based 3D robot via kinematics, producing a precise 4D robot control trajectory. ii) Generative 4D modeling of environmental reactions: we project the 4D robot trajectory into a pointmap as a spatiotemporal visual signal, controlling the generative model to synthesize complex environments' reactive dynamics into synchronized RGB/pointmap sequences. To facilitate training, we curated a large-scale dataset called Robo4D-200k, comprising 201,426 robot interaction episodes with high-quality 4D annotations. Extensive experiments demonstrate that our method effectively simulates physically-plausible, geometry-consistent, and embodiment-agnostic interactions that faithfully mirror diverse real-world dynamics. For the first time, it shows potential zero-shot transfer capability, providing a high-fidelity foundation for advancing next-generation embodied simulation.

Kinema4D: Кинематическое 4D-моделирование мира для пространственно-временного эмбодированного моделирования

Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

Аннотация

Support