ChatPaper.aiChatPaper

NeuROK: 生成的4次元ニューラル物体運動学

NeuROK: Generative 4D Neural Object Kinematics

May 28, 2026
著者: Chen Geng, Guangzhao He, Yue Gao, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu
cs.AI

要旨

データ駆動型アプローチは3Dビジョンに革命をもたらし、トランスフォーマーを用いて静的な3Dオブジェクトの再構築や生成を効果的に実現してきた。しかし、包括的な3D世界モデルの構築において重要性が高いにもかかわらず、シミュレーション可能な4Dダイナミクス(様々な物理条件下での静的オブジェクトの現実的な時間変形)の生成は依然として難しく、場当たり的な手法に留まっている。既存手法のほとんどは、あらかじめ定義された物理モデルを前提とし、システム同定によってパラメータを推定するため、特定のカテゴリや小規模データセットに制限される。本研究では、オブジェクト中心の物理システムに対してデータ駆動型の運動学的状態パラメータ化を学習することで、これらの制約を克服できると提案する。具体的には、オブジェクトのすべての可能な状態を表現する潜在空間と、サンプリングされた任意の潜在変数をオブジェクトのもっともらしい変形形状に写像するデコーダの両方を学習する。このパラメータ化をNeural Object Kinematics (NeuROK) と呼び、キュレーションされた大規模4Dデータセット上でトランスフォーマーに基づくエンコーダ・デコーダモデルを学習する。この定式化と学習済みモデルにより、シミュレーション可能なダイナミクスの生成が大幅に簡略化される。なぜなら、古典物理学におけるラグランジュ力学の観点から、低次元の潜在空間内でのダイナミクスのみを考慮すればよいからである。本手法の神経シミュレーションフレームワークが多様な動的オブジェクトに対して有効かつ汎用的であることを示し、先行研究に対する明確な優位性を実証する。プロジェクトページ: https://chen-geng.com/neurok
English
Data-driven approaches have revolutionized 3D vision, enabling transformers to effectively reconstruct and generate static 3D objects. However, generating simulative 4D dynamics -- realistic temporal deformations of static objects under various physical conditions -- remains challenging and often ad hoc, despite its importance in building comprehensive 3D world models. Most existing methods assume a predefined physical model and use system identification to estimate parameters, restricting these methods to specific categories and small-scale datasets. We propose that these restrictions can be overcome by learning a data-driven kinematic state parameterization for object-centric physical systems. Specifically, we learn both a latent space representing all possible states of the object and a decoder that maps any sampled latent to a plausibly deformed shape of the object. We refer to this parameterization as Neural Object Kinematics (NeuROK), and learn a transformer-based encoder-decoder model on a curated large-scale 4D dataset. This formulation and the learned model significantly simplify the generation of simulative dynamics since we only need to consider the dynamics within a low-dimensional latent space from the Lagrangian mechanics' perspective in classical physics. We demonstrate the effectiveness and generality of this neural simulation framework across diverse dynamic object types, showing clear advantages over prior works. Project page: https://chen-geng.com/neurok