Partikel: Vorwärtsgerichtete 3D-Objektartikulation
Particulate: Feed-Forward 3D Object Articulation
December 12, 2025
papers.authors: Ruining Li, Yuxin Yao, Chuanxia Zheng, Christian Rupprecht, Joan Lasenby, Shangzhe Wu, Andrea Vedaldi
cs.AI
papers.abstract
Wir stellen Particulate vor, einen vorwärtsgerichteten Ansatz, der aus einem einzigen statischen 3D-Mesh eines alltäglichen Objekts direkt alle Attribute der zugrundeliegenden artikulierten Struktur ableitet, einschließlich ihrer 3D-Teile, kinematischen Struktur und Bewegungseinschränkungen. Kernstück ist ein Transformer-Netzwerk, der Part Articulation Transformer, der eine Punktwolke des Eingabe-Meshes mit einer flexiblen und skalierbaren Architektur verarbeitet, um alle genannten Attribute mit nativer Unterstützung für mehrere Gelenke vorherzusagen. Wir trainieren das Netzwerk end-to-end auf einer vielfältigen Sammlung artikulierter 3D-Assets aus öffentlichen Datensätzen. Während der Inferenz überträgt Particulate die vorwärtsgerichtete Vorhersage des Netzwerks auf das Eingabe-Mesh und liefert so innerhalb von Sekunden ein vollständig artikuliertes 3D-Modell – deutlich schneller als bisherige Ansätze, die eine Optimierung pro Objekt erfordern. Particulate kann die artikulierte Struktur von KI-generierten 3D-Assets ebenfalls präzise ableiten und ermöglicht so die vollständige Extraktion artikulierter 3D-Objekte aus einem einzigen (realen oder synthetischen) Bild, wenn es mit einem herkömmlichen Bild-zu-3D-Generator kombiniert wird. Darüber hinaus führen wir einen neuen anspruchsvollen Benchmark für die 3D-Artikulationsschätzung ein, der aus hochwertigen öffentlichen 3D-Assets kuratiert wurde, und gestalten das Auswertungsprotokoll konsistenter mit menschlichen Präferenzen. Quantitative und qualitative Ergebnisse zeigen, dass Particulate state-of-the-art Ansätze deutlich übertrifft.
English
We present Particulate, a feed-forward approach that, given a single static 3D mesh of an everyday object, directly infers all attributes of the underlying articulated structure, including its 3D parts, kinematic structure, and motion constraints. At its core is a transformer network, Part Articulation Transformer, which processes a point cloud of the input mesh using a flexible and scalable architecture to predict all the aforementioned attributes with native multi-joint support. We train the network end-to-end on a diverse collection of articulated 3D assets from public datasets. During inference, Particulate lifts the network's feed-forward prediction to the input mesh, yielding a fully articulated 3D model in seconds, much faster than prior approaches that require per-object optimization. Particulate can also accurately infer the articulated structure of AI-generated 3D assets, enabling full-fledged extraction of articulated 3D objects from a single (real or synthetic) image when combined with an off-the-shelf image-to-3D generator. We further introduce a new challenging benchmark for 3D articulation estimation curated from high-quality public 3D assets, and redesign the evaluation protocol to be more consistent with human preferences. Quantitative and qualitative results show that Particulate significantly outperforms state-of-the-art approaches.