ChatPaper.aiChatPaper

NeuROK: Generatieve 4D Neurale Objectkinematica

NeuROK: Generative 4D Neural Object Kinematics

May 28, 2026
Auteurs: Chen Geng, Guangzhao He, Yue Gao, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu
cs.AI

Samenvatting

Datagedreven benaderingen hebben de 3D-visie gerevolutioneerd, waardoor transformatoren in staat zijn om statische 3D-objecten effectief te reconstrueren en te genereren. Het genereren van simuleerbare 4D-dynamica – realistische temporele vervormingen van statische objecten onder verschillende fysische omstandigheden – blijft echter uitdagend en vaak ad-hoc, ondanks het belang ervan voor het bouwen van uitgebreide 3D-wereldmodellen. De meeste bestaande methoden gaan uit van een vooraf gedefinieerd fysisch model en gebruiken systeemidentificatie om parameters te schatten, wat deze methoden beperkt tot specifieke categorieën en kleinschalige datasets. Wij stellen voor dat deze beperkingen kunnen worden overwonnen door het leren van een datagedreven kinematische statusparametrisatie voor objectgecentreerde fysische systemen. Specifiek leren we zowel een latente ruimte die alle mogelijke toestanden van het object vertegenwoordigt, als een decoder die elke gesamplede latente code toewijst aan een plausibel vervormde vorm van het object. We noemen deze parametrisatie Neurale Objectkinematica (NeuROK) en trainen een op transformatoren gebaseerd encoder-decodermodel op een samengestelde grootschalige 4D-dataset. Deze formulering en het geleerde model vereenvoudigen het genereren van simuleerbare dynamica aanzienlijk, omdat we alleen de dynamica in een laagdimensionale latente ruimte hoeven te beschouwen vanuit het perspectief van de Lagrangiaanse mechanica in de klassieke natuurkunde. We demonstreren de effectiviteit en algemeenheid van dit neurale simulatieraamwerk voor diverse dynamische objecttypen, met duidelijke voordelen ten opzichte van eerder werk. Projectpagina: https://chen-geng.com/neurok
English
Data-driven approaches have revolutionized 3D vision, enabling transformers to effectively reconstruct and generate static 3D objects. However, generating simulative 4D dynamics -- realistic temporal deformations of static objects under various physical conditions -- remains challenging and often ad hoc, despite its importance in building comprehensive 3D world models. Most existing methods assume a predefined physical model and use system identification to estimate parameters, restricting these methods to specific categories and small-scale datasets. We propose that these restrictions can be overcome by learning a data-driven kinematic state parameterization for object-centric physical systems. Specifically, we learn both a latent space representing all possible states of the object and a decoder that maps any sampled latent to a plausibly deformed shape of the object. We refer to this parameterization as Neural Object Kinematics (NeuROK), and learn a transformer-based encoder-decoder model on a curated large-scale 4D dataset. This formulation and the learned model significantly simplify the generation of simulative dynamics since we only need to consider the dynamics within a low-dimensional latent space from the Lagrangian mechanics' perspective in classical physics. We demonstrate the effectiveness and generality of this neural simulation framework across diverse dynamic object types, showing clear advantages over prior works. Project page: https://chen-geng.com/neurok