Particulado: Articulación de Objetos 3D en Cascada
Particulate: Feed-Forward 3D Object Articulation
December 12, 2025
Autores: Ruining Li, Yuxin Yao, Chuanxia Zheng, Christian Rupprecht, Joan Lasenby, Shangzhe Wu, Andrea Vedaldi
cs.AI
Resumen
Presentamos Particulate, un método de propagación directa que, dado una única malla 3D estática de un objeto cotidiano, infiere directamente todos los atributos de la estructura articulada subyacente, incluyendo sus partes 3D, su estructura cinemática y sus restricciones de movimiento. En su núcleo se encuentra una red transformadora, el Part Articulation Transformer, que procesa una nube de puntos de la malla de entrada utilizando una arquitectura flexible y escalable para predecir todos los atributos mencionados con soporte nativo para múltiples articulaciones. Entrenamos la red de extremo a extremo en una colección diversa de activos 3D articulados de conjuntos de datos públicos. Durante la inferencia, Particulate traslada la predicción de propagación directa de la red a la malla de entrada, produciendo un modelo 3D completamente articulado en segundos, mucho más rápido que los enfoques anteriores que requieren optimización por objeto. Particulate también puede inferir con precisión la estructura articulada de activos 3D generados por IA, permitiendo la extracción completa de objetos 3D articulados a partir de una única imagen (real o sintética) cuando se combina con un generador de imagen-a-3D estándar. Además, introducimos un nuevo benchmark desafiante para la estimación de articulación 3D, curado a partir de activos 3D públicos de alta calidad, y rediseñamos el protocolo de evaluación para que sea más consistente con las preferencias humanas. Los resultados cuantitativos y cualitativos muestran que Particulate supera significativamente a los enfoques state-of-the-art.
English
We present Particulate, a feed-forward approach that, given a single static 3D mesh of an everyday object, directly infers all attributes of the underlying articulated structure, including its 3D parts, kinematic structure, and motion constraints. At its core is a transformer network, Part Articulation Transformer, which processes a point cloud of the input mesh using a flexible and scalable architecture to predict all the aforementioned attributes with native multi-joint support. We train the network end-to-end on a diverse collection of articulated 3D assets from public datasets. During inference, Particulate lifts the network's feed-forward prediction to the input mesh, yielding a fully articulated 3D model in seconds, much faster than prior approaches that require per-object optimization. Particulate can also accurately infer the articulated structure of AI-generated 3D assets, enabling full-fledged extraction of articulated 3D objects from a single (real or synthetic) image when combined with an off-the-shelf image-to-3D generator. We further introduce a new challenging benchmark for 3D articulation estimation curated from high-quality public 3D assets, and redesign the evaluation protocol to be more consistent with human preferences. Quantitative and qualitative results show that Particulate significantly outperforms state-of-the-art approaches.