ArtLLM: Генерация артикулированных ассетов с помощью 3D LLM

Аннотация

Создание интерактивных цифровых сред для игр, робототехники и моделирования опирается на сочленённые 3D-объекты, функциональность которых определяется геометрией их частей и кинематической структурой. Однако существующие подходы имеют фундаментальные ограничения: методы реконструкции на основе оптимизации требуют медленного, индивидуального подбора соединений для каждого объекта и обычно работают только с простыми объектами, имеющими одно сочленение, в то время как методы на основе поиска собирают части из фиксированной библиотеки, что приводит к повторяющейся геометрии и плохой обобщающей способности. Для решения этих проблем мы представляем ArtLLM — новую систему для генерации высококачественных сочленённых ассетов непосредственно из полных 3D-сеток. В её основе лежит 3D-мультимодальная большая языковая модель, обученная на масштабном наборе данных по артикуляции, созданном из существующих датасетов и процедурно сгенерированных объектов. В отличие от предыдущих работ, ArtLLM авторегрессивно предсказывает переменное количество частей и соединений, выводя их кинематическую структуру единым образом из облака точек объекта. Затем этот учитывающий артикуляцию план управляет 3D-генеративной моделью для синтеза геометрий частей с высокой точностью. Эксперименты на наборе данных PartNet-Mobility показывают, что ArtLLM значительно превосходит современные методы как по точности планирования частей, так и по предсказанию соединений, демонстрируя при этом robustную обобщаемость на реальные объекты. Наконец, мы показываем её полезность для построения цифровых двойников, подчёркивая потенциал для масштабируемого обучения роботов.

English

Creating interactive digital environments for gaming, robotics, and simulation relies on articulated 3D objects whose functionality emerges from their part geometry and kinematic structure. However, existing approaches remain fundamentally limited: optimization-based reconstruction methods require slow, per-object joint fitting and typically handle only simple, single-joint objects, while retrieval-based methods assemble parts from a fixed library, leading to repetitive geometry and poor generalization. To address these challenges, we introduce ArtLLM, a novel framework for generating high-quality articulated assets directly from complete 3D meshes. At its core is a 3D multimodal large language model trained on a large-scale articulation dataset curated from both existing articulation datasets and procedurally generated objects. Unlike prior work, ArtLLM autoregressively predicts a variable number of parts and joints, inferring their kinematic structure in a unified manner from the object's point cloud. This articulation-aware layout then conditions a 3D generative model to synthesize high-fidelity part geometries. Experiments on the PartNet-Mobility dataset show that ArtLLM significantly outperforms state-of-the-art methods in both part layout accuracy and joint prediction, while generalizing robustly to real-world objects. Finally, we demonstrate its utility in constructing digital twins, highlighting its potential for scalable robot learning.

ArtLLM: Генерация артикулированных ассетов с помощью 3D LLM

ArtLLM: Generating Articulated Assets via 3D LLM

Аннотация

Support