ChatPaper.aiChatPaper

Deeltjesgebaseerd: Feedforward 3D-objectarticulatie

Particulate: Feed-Forward 3D Object Articulation

December 12, 2025
Auteurs: Ruining Li, Yuxin Yao, Chuanxia Zheng, Christian Rupprecht, Joan Lasenby, Shangzhe Wu, Andrea Vedaldi
cs.AI

Samenvatting

Wij presenteren Particulate, een feed-forward benadering die, uitgaande van een enkel statisch 3D-model van een alledaags object, direct alle attributen van de onderliggende gearticuleerde structuur afleidt, inclusief de 3D-onderdelen, de kinematische structuur en de bewegingsbeperkingen. De kern wordt gevormd door een transformernetwerk, de Part Articulation Transformer, dat een puntenwolk van het invoermodel verwerkt met een flexibele en schaalbare architectuur om alle bovengenoemde attributen te voorspellen met native ondersteuning voor meerdere gewrichten. Wij trainen het end-to-end netwerk op een diverse collectie gearticuleerde 3D-assets uit openbare datasets. Tijdens de inferentiefase vertaalt Particulate de feed-forward voorspelling van het netwerk naar het invoermodel, wat in seconden een volledig gearticuleerd 3D-model oplevert, aanzienlijk sneller dan eerdere benaderingen die per-object optimalisatie vereisen. Particulate kan de gearticuleerde structuur van door AI gegenereerde 3D-assets ook nauwkeurig afleiden, wat de volledige extractie van gearticuleerde 3D-objecten uit een enkele (echte of synthetische) afbeelding mogelijk maakt wanneer het wordt gecombineerd met een kant-en-klare image-to-3D generator. Wij introduceren verder een nieuwe uitdagende benchmark voor 3D-articulatieschatting, samengesteld uit hoogwaardige openbare 3D-assets, en herontwerpen het evaluatieprotocol om consistenter te zijn met menselijke voorkeuren. Kwantitatieve en kwalitatieve resultaten tonen aan dat Particulate state-of-the-art benaderingen significant overtreft.
English
We present Particulate, a feed-forward approach that, given a single static 3D mesh of an everyday object, directly infers all attributes of the underlying articulated structure, including its 3D parts, kinematic structure, and motion constraints. At its core is a transformer network, Part Articulation Transformer, which processes a point cloud of the input mesh using a flexible and scalable architecture to predict all the aforementioned attributes with native multi-joint support. We train the network end-to-end on a diverse collection of articulated 3D assets from public datasets. During inference, Particulate lifts the network's feed-forward prediction to the input mesh, yielding a fully articulated 3D model in seconds, much faster than prior approaches that require per-object optimization. Particulate can also accurately infer the articulated structure of AI-generated 3D assets, enabling full-fledged extraction of articulated 3D objects from a single (real or synthetic) image when combined with an off-the-shelf image-to-3D generator. We further introduce a new challenging benchmark for 3D articulation estimation curated from high-quality public 3D assets, and redesign the evaluation protocol to be more consistent with human preferences. Quantitative and qualitative results show that Particulate significantly outperforms state-of-the-art approaches.
PDF42December 17, 2025