Particulado: Articulação de Objetos 3D em Alimentação Direta

Resumo

Apresentamos o Particulate, uma abordagem de propagação direta que, dado um único modelo 3D estático de um objeto do quotidiano, infere diretamente todos os atributos da estrutura articulada subjacente, incluindo as suas partes 3D, a estrutura cinemática e os limites de movimento. O seu núcleo é uma rede *transformer*, o Part Articulation Transformer, que processa uma nuvem de pontos da malha de entrada usando uma arquitetura flexível e escalável para prever todos os atributos mencionados, com suporte nativo para múltiplas juntas. Treinamos a rede de ponta a ponta numa coleção diversificada de ativos 3D articulados de conjuntos de dados públicos. Durante a inferência, o Particulate eleva a previsão da rede de propagação direta para a malha de entrada, produzindo um modelo 3D totalmente articulado em segundos, muito mais rápido do que as abordagens anteriores que exigiam otimização por objeto. O Particulate também pode inferir com precisão a estrutura articulada de ativos 3D gerados por IA, permitindo a extração completa de objetos 3D articulados a partir de uma única imagem (real ou sintética) quando combinado com um gerador imagem-para-3D convencional. Introduzimos ainda um novo e desafiante benchmark para estimativa de articulação 3D, selecionado a partir de ativos 3D públicos de alta qualidade, e redesenvolvemos o protocolo de avaliação para ser mais consistente com as preferências humanas. Resultados quantitativos e qualitativos mostram que o Particulate supera significativamente as abordagens state-of-the-art.

English

We present Particulate, a feed-forward approach that, given a single static 3D mesh of an everyday object, directly infers all attributes of the underlying articulated structure, including its 3D parts, kinematic structure, and motion constraints. At its core is a transformer network, Part Articulation Transformer, which processes a point cloud of the input mesh using a flexible and scalable architecture to predict all the aforementioned attributes with native multi-joint support. We train the network end-to-end on a diverse collection of articulated 3D assets from public datasets. During inference, Particulate lifts the network's feed-forward prediction to the input mesh, yielding a fully articulated 3D model in seconds, much faster than prior approaches that require per-object optimization. Particulate can also accurately infer the articulated structure of AI-generated 3D assets, enabling full-fledged extraction of articulated 3D objects from a single (real or synthetic) image when combined with an off-the-shelf image-to-3D generator. We further introduce a new challenging benchmark for 3D articulation estimation curated from high-quality public 3D assets, and redesign the evaluation protocol to be more consistent with human preferences. Quantitative and qualitative results show that Particulate significantly outperforms state-of-the-art approaches.