グラフベースのニューラルダイナミクスモデリングのための動的3Dガウス追跡
Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling
October 24, 2024
著者: Mingtong Zhang, Kaifeng Zhang, Yunzhu Li
cs.AI
要旨
ロボットが物体とやり取りするビデオは、物体のダイナミクスに関する豊富な情報をエンコードしています。しかし、既存のビデオ予測手法は、通常、ロボットのアクションや物体の3D状態などのビデオからの3D情報を明示的に考慮していないため、実世界のロボットアプリケーションでの使用が制限されています。本研究では、マルチビューRGBビデオから物体のダイナミクスを学習するためのフレームワークを紹介します。このフレームワークでは、ロボットのアクション軌跡とそれらがシーンのダイナミクスに与える影響を明示的に考慮しています。我々は、3Dガウススプラッティング(3DGS)の3Dガウス表現を使用して、グラフニューラルネットワークを用いて粒子ベースのダイナミクスモデルを訓練します。このモデルは、密に追跡された3Dガウス再構築からダウンサンプリングされたスパースな制御粒子で動作します。オフラインのロボットインタラクションデータでニューラルダイナミクスモデルを学習することで、我々の手法は異なる初期配置や未知のロボットアクション下で物体の動きを予測することができます。ガウスの3D変換は、制御粒子の動きから補間され、予測された将来の物体の状態をレンダリングし、アクションに依存したビデオ予測を実現します。このダイナミクスモデルは、物体操作タスクのためのモデルベースの計画フレームワークにも適用できます。我々は、ロープ、衣類、ぬいぐるみなどのさまざまな可変材料に関する実験を行い、複雑な形状とダイナミクスをモデル化する能力を示しました。プロジェクトページはhttps://gs-dynamics.github.ioでご覧いただけます。
English
Videos of robots interacting with objects encode rich information about the
objects' dynamics. However, existing video prediction approaches typically do
not explicitly account for the 3D information from videos, such as robot
actions and objects' 3D states, limiting their use in real-world robotic
applications. In this work, we introduce a framework to learn object dynamics
directly from multi-view RGB videos by explicitly considering the robot's
action trajectories and their effects on scene dynamics. We utilize the 3D
Gaussian representation of 3D Gaussian Splatting (3DGS) to train a
particle-based dynamics model using Graph Neural Networks. This model operates
on sparse control particles downsampled from the densely tracked 3D Gaussian
reconstructions. By learning the neural dynamics model on offline robot
interaction data, our method can predict object motions under varying initial
configurations and unseen robot actions. The 3D transformations of Gaussians
can be interpolated from the motions of control particles, enabling the
rendering of predicted future object states and achieving action-conditioned
video prediction. The dynamics model can also be applied to model-based
planning frameworks for object manipulation tasks. We conduct experiments on
various kinds of deformable materials, including ropes, clothes, and stuffed
animals, demonstrating our framework's ability to model complex shapes and
dynamics. Our project page is available at https://gs-dynamics.github.io.Summary
AI-Generated Summary