ChatPaper.aiChatPaper

Particolato: Articolazione di Oggetti 3D in Feed-Forward

Particulate: Feed-Forward 3D Object Articulation

December 12, 2025
Autori: Ruining Li, Yuxin Yao, Chuanxia Zheng, Christian Rupprecht, Joan Lasenby, Shangzhe Wu, Andrea Vedaldi
cs.AI

Abstract

Presentiamo Particulate, un approccio feed-forward che, dato un singolo mesh 3D statico di un oggetto comune, inferisce direttamente tutti gli attributi della struttura articolata sottostante, inclusi le sue parti 3D, la struttura cinematica e i vincoli di movimento. Il suo nucleo è una rete transformer, il Part Articulation Transformer, che elabora una nuvola di punti del mesh di input utilizzando un'architettura flessibile e scalabile per prevedere tutti gli attributi suddetti con supporto nativo per giunti multipli. Addestriamo la rete end-to-end su una raccolta diversificata di asset 3D articolati provenienti da dataset pubblici. Durante l'inferenza, Particulate eleva la previsione feed-forward della rete al mesh di input, producendo un modello 3D completamente articolato in pochi secondi, molto più velocemente delle approcci precedenti che richiedono un'ottimizzazione per oggetto. Particulate può anche inferire con precisione la struttura articolata di asset 3D generati dall'IA, abilitando l'estrazione completa di oggetti 3D articolati da una singola immagine (reale o sintetica) quando combinato con un generatore immagine-3D standard. Introduciamo inoltre un nuovo benchmark impegnativo per la stima dell'articolazione 3D, curato da asset 3D pubblici di alta qualità, e ridisegniamo il protocollo di valutazione per renderlo più coerente con le preferenze umane. I risultati quantitativi e qualitativi mostrano che Particulate supera significativamente gli approcci all'avanguardia.
English
We present Particulate, a feed-forward approach that, given a single static 3D mesh of an everyday object, directly infers all attributes of the underlying articulated structure, including its 3D parts, kinematic structure, and motion constraints. At its core is a transformer network, Part Articulation Transformer, which processes a point cloud of the input mesh using a flexible and scalable architecture to predict all the aforementioned attributes with native multi-joint support. We train the network end-to-end on a diverse collection of articulated 3D assets from public datasets. During inference, Particulate lifts the network's feed-forward prediction to the input mesh, yielding a fully articulated 3D model in seconds, much faster than prior approaches that require per-object optimization. Particulate can also accurately infer the articulated structure of AI-generated 3D assets, enabling full-fledged extraction of articulated 3D objects from a single (real or synthetic) image when combined with an off-the-shelf image-to-3D generator. We further introduce a new challenging benchmark for 3D articulation estimation curated from high-quality public 3D assets, and redesign the evaluation protocol to be more consistent with human preferences. Quantitative and qualitative results show that Particulate significantly outperforms state-of-the-art approaches.
PDF42December 17, 2025