ChatPaper.aiChatPaper

Rastreamento Gaussiano 3D Dinâmico para Modelagem de Dinâmica Neural Baseada em Grafos

Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling

October 24, 2024
Autores: Mingtong Zhang, Kaifeng Zhang, Yunzhu Li
cs.AI

Resumo

Vídeos de robôs interagindo com objetos codificam informações ricas sobre a dinâmica dos objetos. No entanto, abordagens existentes de previsão de vídeo geralmente não consideram explicitamente as informações 3D dos vídeos, como ações do robô e estados 3D dos objetos, limitando seu uso em aplicações robóticas do mundo real. Neste trabalho, introduzimos um framework para aprender a dinâmica de objetos diretamente a partir de vídeos RGB de múltiplas visões, considerando explicitamente as trajetórias de ação do robô e seus efeitos na dinâmica da cena. Utilizamos a representação gaussiana 3D do Splatting Gaussiano 3D (3DGS) para treinar um modelo de dinâmica baseado em partículas usando Redes Neurais Gráficas. Este modelo opera em partículas de controle esparsas, amostradas a partir das reconstruções gaussianas 3D densamente rastreadas. Ao aprender o modelo de dinâmica neural com dados de interação offline do robô, nosso método pode prever os movimentos dos objetos sob diferentes configurações iniciais e ações do robô não vistas. As transformações 3D das gaussianas podem ser interpoladas a partir dos movimentos das partículas de controle, permitindo a renderização de estados futuros previstos dos objetos e alcançando previsão de vídeo condicionada à ação. O modelo de dinâmica também pode ser aplicado a frameworks de planejamento baseado em modelo para tarefas de manipulação de objetos. Realizamos experimentos em vários tipos de materiais deformáveis, incluindo cordas, roupas e animais de pelúcia, demonstrando a capacidade de nosso framework em modelar formas e dinâmicas complexas. Nossa página do projeto está disponível em https://gs-dynamics.github.io.
English
Videos of robots interacting with objects encode rich information about the objects' dynamics. However, existing video prediction approaches typically do not explicitly account for the 3D information from videos, such as robot actions and objects' 3D states, limiting their use in real-world robotic applications. In this work, we introduce a framework to learn object dynamics directly from multi-view RGB videos by explicitly considering the robot's action trajectories and their effects on scene dynamics. We utilize the 3D Gaussian representation of 3D Gaussian Splatting (3DGS) to train a particle-based dynamics model using Graph Neural Networks. This model operates on sparse control particles downsampled from the densely tracked 3D Gaussian reconstructions. By learning the neural dynamics model on offline robot interaction data, our method can predict object motions under varying initial configurations and unseen robot actions. The 3D transformations of Gaussians can be interpolated from the motions of control particles, enabling the rendering of predicted future object states and achieving action-conditioned video prediction. The dynamics model can also be applied to model-based planning frameworks for object manipulation tasks. We conduct experiments on various kinds of deformable materials, including ropes, clothes, and stuffed animals, demonstrating our framework's ability to model complex shapes and dynamics. Our project page is available at https://gs-dynamics.github.io.

Summary

AI-Generated Summary

PDF62November 16, 2024