NeuROK: 생성적 4D 신경 객체 운동학
NeuROK: Generative 4D Neural Object Kinematics
May 28, 2026
저자: Chen Geng, Guangzhao He, Yue Gao, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu
cs.AI
초록
데이터 기반 접근법은 3D 비전에 혁명을 일으켜 트랜스포머가 정적 3D 객체를 효과적으로 재구성하고 생성할 수 있게 하였다. 그러나 포괄적인 3D 세계 모델을 구축하는 데 중요함에도 불구하고, 다양한 물리적 조건에서 정적 객체의 현실적인 시간적 변형인 시뮬레이티브 4D 동역학을 생성하는 것은 여전히 어렵고 종종 임시방편적으로 이루어진다. 대부분의 기존 방법은 사전 정의된 물리 모델을 가정하고 시스템 식별을 통해 매개변수를 추정하므로, 이러한 방법은 특정 범주와 소규모 데이터셋으로 제한된다. 우리는 객체 중심 물리 시스템에 대한 데이터 기반 운동학적 상태 매개변수화를 학습함으로써 이러한 제한을 극복할 수 있다고 제안한다. 구체적으로, 객체의 가능한 모든 상태를 나타내는 잠재 공간과 샘플링된 잠재 변수를 객체의 그럴듯하게 변형된 형상으로 매핑하는 디코더를 모두 학습한다. 우리는 이 매개변수화를 신경 객체 운동학(NeuROK)이라 명명하고, 선별된 대규모 4D 데이터셋에서 트랜스포머 기반 인코더-디코더 모델을 학습한다. 이 공식과 학습된 모델은 시뮬레이티브 동역학 생성을 크게 단순화하는데, 이는 고전 물리학의 라그랑주 역학 관점에서 저차원 잠재 공간 내의 동역학만 고려하면 되기 때문이다. 우리는 다양한 동적 객체 유형에 걸쳐 이 신경 시뮬레이션 프레임워크의 효과성과 일반성을 입증하며, 이전 연구보다 명확한 이점을 보여준다. 프로젝트 페이지: https://chen-geng.com/neurok
English
Data-driven approaches have revolutionized 3D vision, enabling transformers to effectively reconstruct and generate static 3D objects. However, generating simulative 4D dynamics -- realistic temporal deformations of static objects under various physical conditions -- remains challenging and often ad hoc, despite its importance in building comprehensive 3D world models. Most existing methods assume a predefined physical model and use system identification to estimate parameters, restricting these methods to specific categories and small-scale datasets. We propose that these restrictions can be overcome by learning a data-driven kinematic state parameterization for object-centric physical systems. Specifically, we learn both a latent space representing all possible states of the object and a decoder that maps any sampled latent to a plausibly deformed shape of the object. We refer to this parameterization as Neural Object Kinematics (NeuROK), and learn a transformer-based encoder-decoder model on a curated large-scale 4D dataset. This formulation and the learned model significantly simplify the generation of simulative dynamics since we only need to consider the dynamics within a low-dimensional latent space from the Lagrangian mechanics' perspective in classical physics. We demonstrate the effectiveness and generality of this neural simulation framework across diverse dynamic object types, showing clear advantages over prior works. Project page: https://chen-geng.com/neurok