Частицы: Прямая передача артикуляции трёхмерных объектов
Particulate: Feed-Forward 3D Object Articulation
December 12, 2025
Авторы: Ruining Li, Yuxin Yao, Chuanxia Zheng, Christian Rupprecht, Joan Lasenby, Shangzhe Wu, Andrea Vedaldi
cs.AI
Аннотация
Мы представляем Particulate — прямой (feed-forward) подход, который по единственному статическому 3D-мешу повседневного объекта напрямую выводит все атрибуты лежащей в его основе артикулированной структуры, включая 3D-части, кинематическую структуру и ограничения движения. В его основе лежит трансформерная сеть Part Articulation Transformer, которая обрабатывает облако точек входного меша с помощью гибкой и масштабируемой архитектуры для прогнозирования всех упомянутых атрибутов с нативной поддержкой множественных сочленений. Мы обучаем сеть от начала до конца на разнообразной коллекции артикулированных 3D-ассетов из публичных наборов данных. На этапе вывода Particulate переносит прямое предсказание сети на входной меш, получая полностью артикулированную 3D-модель за секунды, что значительно быстрее предыдущих подходов, требующих оптимизации для каждого объекта. Particulate также может точно выводить артикулированную структуру 3D-ассетов, созданных ИИ, что позволяет выполнять полноценное извлечение артикулированных 3D-объектов из одного (реального или синтетического) изображения в сочетании с готовым генератором изображение-в-3D. Мы также представляем новый сложный бенчмарк для оценки артикуляции 3D-моделей, созданный на основе высококачественных публичных 3D-ассетов, и перерабатываем протокол оценки для большей согласованности с человеческими предпочтениями. Количественные и качественные результаты показывают, что Particulate значительно превосходит современные подходы.
English
We present Particulate, a feed-forward approach that, given a single static 3D mesh of an everyday object, directly infers all attributes of the underlying articulated structure, including its 3D parts, kinematic structure, and motion constraints. At its core is a transformer network, Part Articulation Transformer, which processes a point cloud of the input mesh using a flexible and scalable architecture to predict all the aforementioned attributes with native multi-joint support. We train the network end-to-end on a diverse collection of articulated 3D assets from public datasets. During inference, Particulate lifts the network's feed-forward prediction to the input mesh, yielding a fully articulated 3D model in seconds, much faster than prior approaches that require per-object optimization. Particulate can also accurately infer the articulated structure of AI-generated 3D assets, enabling full-fledged extraction of articulated 3D objects from a single (real or synthetic) image when combined with an off-the-shelf image-to-3D generator. We further introduce a new challenging benchmark for 3D articulation estimation curated from high-quality public 3D assets, and redesign the evaluation protocol to be more consistent with human preferences. Quantitative and qualitative results show that Particulate significantly outperforms state-of-the-art approaches.