NeuROK : Cinématique neuronale générative 4D d'objets
NeuROK: Generative 4D Neural Object Kinematics
May 28, 2026
Auteurs: Chen Geng, Guangzhao He, Yue Gao, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu
cs.AI
Résumé
Les approches basées sur les données ont révolutionné la vision 3D, permettant aux transformateurs de reconstruire et générer efficacement des objets 3D statiques. Cependant, la génération de dynamiques 4D simulatives — des déformations temporelles réalistes d'objets statiques sous diverses conditions physiques — reste difficile et souvent ad hoc, malgré son importance pour la construction de modèles complets du monde en 3D. La plupart des méthodes existantes supposent un modèle physique prédéfini et utilisent l'identification de systèmes pour estimer les paramètres, ce qui limite ces méthodes à des catégories spécifiques et à des jeux de données à petite échelle. Nous proposons que ces restrictions peuvent être surmontées en apprenant une paramétrisation d'état cinématique basée sur les données pour des systèmes physiques centrés sur les objets. Plus précisément, nous apprenons à la fois un espace latent représentant tous les états possibles de l'objet et un décodeur qui mappe tout latent échantillonné à une forme plausiblement déformée de l'objet. Nous appelons cette paramétrisation Neural Object Kinematics (NeuROK), et nous apprenons un modèle encodeur-décodeur basé sur des transformateurs sur un jeu de données 4D à grande échelle et soigneusement constitué. Cette formulation et le modèle appris simplifient considérablement la génération de dynamiques simulatives, car nous n'avons besoin de considérer la dynamique que dans un espace latent de faible dimension, du point de vue de la mécanique lagrangienne en physique classique. Nous démontrons l'efficacité et la généralité de ce cadre de simulation neuronale sur divers types d'objets dynamiques, montrant des avantages clairs par rapport aux travaux antérieurs. Page du projet : https://chen-geng.com/neurok
English
Data-driven approaches have revolutionized 3D vision, enabling transformers to effectively reconstruct and generate static 3D objects. However, generating simulative 4D dynamics -- realistic temporal deformations of static objects under various physical conditions -- remains challenging and often ad hoc, despite its importance in building comprehensive 3D world models. Most existing methods assume a predefined physical model and use system identification to estimate parameters, restricting these methods to specific categories and small-scale datasets. We propose that these restrictions can be overcome by learning a data-driven kinematic state parameterization for object-centric physical systems. Specifically, we learn both a latent space representing all possible states of the object and a decoder that maps any sampled latent to a plausibly deformed shape of the object. We refer to this parameterization as Neural Object Kinematics (NeuROK), and learn a transformer-based encoder-decoder model on a curated large-scale 4D dataset. This formulation and the learned model significantly simplify the generation of simulative dynamics since we only need to consider the dynamics within a low-dimensional latent space from the Lagrangian mechanics' perspective in classical physics. We demonstrate the effectiveness and generality of this neural simulation framework across diverse dynamic object types, showing clear advantages over prior works. Project page: https://chen-geng.com/neurok