Seguimiento gaussiano 3D dinámico para modelado de dinámicas neuronales basado en grafos.
Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling
October 24, 2024
Autores: Mingtong Zhang, Kaifeng Zhang, Yunzhu Li
cs.AI
Resumen
Los videos de robots interactuando con objetos codifican información detallada sobre la dinámica de los objetos. Sin embargo, los enfoques existentes de predicción de videos generalmente no tienen en cuenta explícitamente la información tridimensional de los videos, como las acciones del robot y los estados tridimensionales de los objetos, lo que limita su uso en aplicaciones robóticas del mundo real. En este trabajo, presentamos un marco para aprender la dinámica de objetos directamente a partir de videos RGB de múltiples vistas considerando explícitamente las trayectorias de acción del robot y sus efectos en la dinámica de la escena. Utilizamos la representación gaussiana 3D del Splatting Gaussiano 3D (3DGS) para entrenar un modelo de dinámica basado en partículas utilizando Redes Neuronales de Grafos. Este modelo opera en partículas de control dispersas muestreadas de las reconstrucciones gaussianas 3D rastreadas densamente. Al aprender el modelo de dinámica neuronal con datos de interacción de robots sin conexión, nuestro método puede predecir los movimientos de objetos bajo configuraciones iniciales variables y acciones de robot no vistas. Las transformaciones 3D de las gaussianas pueden interpolarse a partir de los movimientos de las partículas de control, lo que permite la representación de estados futuros predichos de objetos y logra una predicción de video condicionada por la acción. El modelo de dinámica también se puede aplicar a marcos de planificación basados en modelos para tareas de manipulación de objetos. Realizamos experimentos con varios tipos de materiales deformables, incluyendo cuerdas, ropa y peluches, demostrando la capacidad de nuestro marco para modelar formas y dinámicas complejas. Nuestra página del proyecto está disponible en https://gs-dynamics.github.io.
English
Videos of robots interacting with objects encode rich information about the
objects' dynamics. However, existing video prediction approaches typically do
not explicitly account for the 3D information from videos, such as robot
actions and objects' 3D states, limiting their use in real-world robotic
applications. In this work, we introduce a framework to learn object dynamics
directly from multi-view RGB videos by explicitly considering the robot's
action trajectories and their effects on scene dynamics. We utilize the 3D
Gaussian representation of 3D Gaussian Splatting (3DGS) to train a
particle-based dynamics model using Graph Neural Networks. This model operates
on sparse control particles downsampled from the densely tracked 3D Gaussian
reconstructions. By learning the neural dynamics model on offline robot
interaction data, our method can predict object motions under varying initial
configurations and unseen robot actions. The 3D transformations of Gaussians
can be interpolated from the motions of control particles, enabling the
rendering of predicted future object states and achieving action-conditioned
video prediction. The dynamics model can also be applied to model-based
planning frameworks for object manipulation tasks. We conduct experiments on
various kinds of deformable materials, including ropes, clothes, and stuffed
animals, demonstrating our framework's ability to model complex shapes and
dynamics. Our project page is available at https://gs-dynamics.github.io.Summary
AI-Generated Summary