Динамическое трехмерное гауссовское отслеживание для моделирования нейродинамики на основе графов.
Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling
October 24, 2024
Авторы: Mingtong Zhang, Kaifeng Zhang, Yunzhu Li
cs.AI
Аннотация
Видеозаписи роботов, взаимодействующих с объектами, содержат обширную информацию о динамике объектов. Однако существующие подходы к предсказанию видео обычно не учитывают явно трехмерную информацию из видеозаписей, такую как действия робота и трехмерные состояния объектов, что ограничивает их использование в реальных робототехнических приложениях. В данной работе мы представляем фреймворк для изучения динамики объектов напрямую из многопроекционных RGB видео путем явного учета траекторий действий робота и их влияния на динамику сцены. Мы используем трехмерное гауссово представление 3D-гауссовского сплэттинга (3DGS) для обучения модели динамики на основе частиц с использованием графовых нейронных сетей. Эта модель работает с разреженными управляющими частицами, дискретизированными из плотно отслеживаемых трехмерных гауссовских реконструкций. Обучая нейронную модель динамики на офлайн данных взаимодействия робота, наш метод способен предсказывать движения объектов при различных начальных конфигурациях и невидимых действиях робота. Трансформации гауссов могут быть интерполированы из движений управляющих частиц, что позволяет визуализировать предсказанные будущие состояния объектов и достигать предсказания видео, зависящего от действий. Модель динамики также может быть применена в фреймворках планирования на основе модели для задач манипулирования объектами. Мы проводим эксперименты на различных видах деформируемых материалов, включая веревки, одежду и мягкие игрушки, демонстрируя способность нашего фреймворка моделировать сложные формы и динамику. Наша страница проекта доступна по адресу https://gs-dynamics.github.io.
English
Videos of robots interacting with objects encode rich information about the
objects' dynamics. However, existing video prediction approaches typically do
not explicitly account for the 3D information from videos, such as robot
actions and objects' 3D states, limiting their use in real-world robotic
applications. In this work, we introduce a framework to learn object dynamics
directly from multi-view RGB videos by explicitly considering the robot's
action trajectories and their effects on scene dynamics. We utilize the 3D
Gaussian representation of 3D Gaussian Splatting (3DGS) to train a
particle-based dynamics model using Graph Neural Networks. This model operates
on sparse control particles downsampled from the densely tracked 3D Gaussian
reconstructions. By learning the neural dynamics model on offline robot
interaction data, our method can predict object motions under varying initial
configurations and unseen robot actions. The 3D transformations of Gaussians
can be interpolated from the motions of control particles, enabling the
rendering of predicted future object states and achieving action-conditioned
video prediction. The dynamics model can also be applied to model-based
planning frameworks for object manipulation tasks. We conduct experiments on
various kinds of deformable materials, including ropes, clothes, and stuffed
animals, demonstrating our framework's ability to model complex shapes and
dynamics. Our project page is available at https://gs-dynamics.github.io.Summary
AI-Generated Summary