ChatPaper.aiChatPaper

NeuROK: Cinemática Neural Generativa de Objetos 4D

NeuROK: Generative 4D Neural Object Kinematics

May 28, 2026
Autores: Chen Geng, Guangzhao He, Yue Gao, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu
cs.AI

Resumo

Abordagens baseadas em dados revolucionaram a visão 3D, permitindo que transformers reconstruam e gerem objetos 3D estáticos de forma eficaz. No entanto, gerar dinâmicas 4D simulativas — deformações temporais realistas de objetos estáticos sob diversas condições físicas — continua sendo desafiador e frequentemente ad hoc, apesar de sua importância na construção de modelos abrangentes do mundo 3D. A maioria dos métodos existentes assume um modelo físico predefinido e utiliza identificação de sistemas para estimar parâmetros, restringindo esses métodos a categorias específicas e conjuntos de dados de pequena escala. Propomos que essas restrições podem ser superadas aprendendo uma parametrização de estado cinemático baseada em dados para sistemas físicos centrados no objeto. Especificamente, aprendemos tanto um espaço latente representando todos os estados possíveis do objeto quanto um decodificador que mapeia qualquer latente amostrado para uma forma plausivelmente deformada do objeto. Referimo-nos a essa parametrização como Cinemática Neural de Objetos (NeuROK) e treinamos um modelo codificador-decodificador baseado em transformers em um conjunto de dados 4D de larga escala cuidadosamente curado. Essa formulação e o modelo aprendido simplificam significativamente a geração de dinâmicas simulativas, uma vez que precisamos considerar apenas a dinâmica dentro de um espaço latente de baixa dimensão sob a perspectiva da mecânica lagrangiana na física clássica. Demonstramos a eficácia e generalidade dessa estrutura de simulação neural em diversos tipos de objetos dinâmicos, mostrando claras vantagens sobre trabalhos anteriores. Página do projeto: https://chen-geng.com/neurok
English
Data-driven approaches have revolutionized 3D vision, enabling transformers to effectively reconstruct and generate static 3D objects. However, generating simulative 4D dynamics -- realistic temporal deformations of static objects under various physical conditions -- remains challenging and often ad hoc, despite its importance in building comprehensive 3D world models. Most existing methods assume a predefined physical model and use system identification to estimate parameters, restricting these methods to specific categories and small-scale datasets. We propose that these restrictions can be overcome by learning a data-driven kinematic state parameterization for object-centric physical systems. Specifically, we learn both a latent space representing all possible states of the object and a decoder that maps any sampled latent to a plausibly deformed shape of the object. We refer to this parameterization as Neural Object Kinematics (NeuROK), and learn a transformer-based encoder-decoder model on a curated large-scale 4D dataset. This formulation and the learned model significantly simplify the generation of simulative dynamics since we only need to consider the dynamics within a low-dimensional latent space from the Lagrangian mechanics' perspective in classical physics. We demonstrate the effectiveness and generality of this neural simulation framework across diverse dynamic object types, showing clear advantages over prior works. Project page: https://chen-geng.com/neurok