ChatPaper.aiChatPaper

NeuROK: Generative 4D Neuronale Objektkinematik

NeuROK: Generative 4D Neural Object Kinematics

May 28, 2026
Autoren: Chen Geng, Guangzhao He, Yue Gao, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu
cs.AI

Zusammenfassung

Datengetriebene Ansätze haben das 3D-Sehen revolutioniert und ermöglichen es Transformatoren, statische 3D-Objekte effektiv zu rekonstruieren und zu generieren. Die Erzeugung simulativer 4D-Dynamiken – realistische zeitliche Verformungen statischer Objekte unter verschiedenen physikalischen Bedingungen – bleibt jedoch trotz ihrer Bedeutung für den Aufbau umfassender 3D-Weltmodelle eine Herausforderung und oft ad hoc. Die meisten bestehenden Methoden gehen von einem vordefinierten physikalischen Modell aus und verwenden Systemidentifikation zur Parameterschätzung, was diese Methoden auf bestimmte Kategorien und kleine Datensätze beschränkt. Wir schlagen vor, dass diese Einschränkungen durch das Erlernen einer datengetriebenen kinematischen Zustandsparametrisierung für objektzentrierte physikalische Systeme überwunden werden können. Konkret lernen wir sowohl einen latenten Raum, der alle möglichen Zustände des Objekts repräsentiert, als auch einen Decoder, der jedes abgetastete Latent auf eine plausibel verformte Form des Objekts abbildet. Wir bezeichnen diese Parametrisierung als Neuronale Objektkinematik (NeuROK) und trainieren ein Transformer-basiertes Encoder-Decoder-Modell auf einem kuratierten großskaligen 4D-Datensatz. Diese Formulierung und das gelernte Modell vereinfachen die Generierung simulativer Dynamiken erheblich, da wir die Dynamik nur innerhalb eines niedrigdimensionalen latenten Raums aus der Perspektive der Lagrange-Mechanik der klassischen Physik betrachten müssen. Wir demonstrieren die Wirksamkeit und Allgemeinheit dieses neuronalen Simulationsframeworks über verschiedene dynamische Objekttypen hinweg und zeigen klare Vorteile gegenüber früheren Arbeiten. Projektseite: https://chen-geng.com/neurok
English
Data-driven approaches have revolutionized 3D vision, enabling transformers to effectively reconstruct and generate static 3D objects. However, generating simulative 4D dynamics -- realistic temporal deformations of static objects under various physical conditions -- remains challenging and often ad hoc, despite its importance in building comprehensive 3D world models. Most existing methods assume a predefined physical model and use system identification to estimate parameters, restricting these methods to specific categories and small-scale datasets. We propose that these restrictions can be overcome by learning a data-driven kinematic state parameterization for object-centric physical systems. Specifically, we learn both a latent space representing all possible states of the object and a decoder that maps any sampled latent to a plausibly deformed shape of the object. We refer to this parameterization as Neural Object Kinematics (NeuROK), and learn a transformer-based encoder-decoder model on a curated large-scale 4D dataset. This formulation and the learned model significantly simplify the generation of simulative dynamics since we only need to consider the dynamics within a low-dimensional latent space from the Lagrangian mechanics' perspective in classical physics. We demonstrate the effectiveness and generality of this neural simulation framework across diverse dynamic object types, showing clear advantages over prior works. Project page: https://chen-geng.com/neurok