ChatPaper.aiChatPaper

NeuROK: Cinemática Generativa 4D de Objetos Neuronales

NeuROK: Generative 4D Neural Object Kinematics

May 28, 2026
Autores: Chen Geng, Guangzhao He, Yue Gao, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu
cs.AI

Resumen

Los enfoques basados en datos han revolucionado la visión 3D, permitiendo que los transformers reconstruyan y generen eficazmente objetos 3D estáticos. Sin embargo, generar dinámicas 4D simulativas —deformaciones temporales realistas de objetos estáticos bajo diversas condiciones físicas— sigue siendo un desafío y a menudo se realiza de manera ad hoc, a pesar de su importancia para construir modelos completos del mundo 3D. La mayoría de los métodos existentes asumen un modelo físico predefinido y utilizan identificación de sistemas para estimar parámetros, lo que limita estos métodos a categorías específicas y conjuntos de datos a pequeña escala. Proponemos que estas limitaciones pueden superarse aprendiendo una parametrización del estado cinemático basada en datos para sistemas físicos centrados en objetos. Específicamente, aprendemos tanto un espacio latente que representa todos los estados posibles del objeto como un decodificador que mapea cualquier latente muestreado a una forma plausiblemente deformada del objeto. Nos referimos a esta parametrización como Neural Object Kinematics (NeuROK) y entrenamos un modelo codificador-decodificador basado en transformers en un conjunto de datos 4D a gran escala y curado. Esta formulación y el modelo aprendido simplifican significativamente la generación de dinámicas simulativas, ya que solo necesitamos considerar la dinámica dentro de un espacio latente de baja dimensión desde la perspectiva de la mecánica lagrangiana en la física clásica. Demostramos la efectividad y generalidad de este marco de simulación neuronal en diversos tipos de objetos dinámicos, mostrando claras ventajas sobre trabajos anteriores. Página del proyecto: https://chen-geng.com/neurok
English
Data-driven approaches have revolutionized 3D vision, enabling transformers to effectively reconstruct and generate static 3D objects. However, generating simulative 4D dynamics -- realistic temporal deformations of static objects under various physical conditions -- remains challenging and often ad hoc, despite its importance in building comprehensive 3D world models. Most existing methods assume a predefined physical model and use system identification to estimate parameters, restricting these methods to specific categories and small-scale datasets. We propose that these restrictions can be overcome by learning a data-driven kinematic state parameterization for object-centric physical systems. Specifically, we learn both a latent space representing all possible states of the object and a decoder that maps any sampled latent to a plausibly deformed shape of the object. We refer to this parameterization as Neural Object Kinematics (NeuROK), and learn a transformer-based encoder-decoder model on a curated large-scale 4D dataset. This formulation and the learned model significantly simplify the generation of simulative dynamics since we only need to consider the dynamics within a low-dimensional latent space from the Lagrangian mechanics' perspective in classical physics. We demonstrate the effectiveness and generality of this neural simulation framework across diverse dynamic object types, showing clear advantages over prior works. Project page: https://chen-geng.com/neurok