ArtLLM: Geração de Ativos Articulados via LLM 3D
ArtLLM: Generating Articulated Assets via 3D LLM
March 1, 2026
Autores: Penghao Wang, Siyuan Xie, Hongyu Yan, Xianghui Yang, Jingwei Huang, Chunchao Guo, Jiayuan Gu
cs.AI
Resumo
A criação de ambientes digitais interativos para jogos, robótica e simulação depende de objetos 3D articulados cuja funcionalidade emerge da sua geometria de partes e da sua estrutura cinemática. No entanto, as abordagens existentes permanecem fundamentalmente limitadas: os métodos de reconstrução baseados em otimização exigem um ajuste lento e individualizado de juntas por objeto e normalmente lidam apenas com objetos simples de junta única, enquanto os métodos baseados em recuperação montam partes a partir de uma biblioteca fixa, resultando em geometria repetitiva e baixa generalização. Para enfrentar esses desafios, apresentamos o ArtLLM, uma nova estrutura para gerar recursos articulados de alta qualidade diretamente a partir de malhas 3D completas. Em seu núcleo está um modelo de linguagem grande multimodal 3D, treinado em um conjunto de dados de articulação em larga escala, curado a partir de conjuntos de dados de articulação existentes e de objetos gerados proceduralmente. Diferente de trabalhos anteriores, o ArtLLM prevê de forma autoregressiva um número variável de partes e juntas, inferindo sua estrutura cinemática de maneira unificada a partir da nuvem de pontos do objeto. Este layout consciente da articulação condiciona, então, um modelo generativo 3D para sintetizar geometrias de partes de alta fidelidade. Experimentos no conjunto de dados PartNet-Mobility mostram que o ArtLLM supera significativamente os métodos state-of-the-art tanto na precisão do layout de partes quanto na previsão de juntas, ao mesmo tempo que generaliza de forma robusta para objetos do mundo real. Por fim, demonstramos sua utilidade na construção de gêmeos digitais, destacando seu potencial para o aprendizado de robôs em escala.
English
Creating interactive digital environments for gaming, robotics, and simulation relies on articulated 3D objects whose functionality emerges from their part geometry and kinematic structure. However, existing approaches remain fundamentally limited: optimization-based reconstruction methods require slow, per-object joint fitting and typically handle only simple, single-joint objects, while retrieval-based methods assemble parts from a fixed library, leading to repetitive geometry and poor generalization. To address these challenges, we introduce ArtLLM, a novel framework for generating high-quality articulated assets directly from complete 3D meshes. At its core is a 3D multimodal large language model trained on a large-scale articulation dataset curated from both existing articulation datasets and procedurally generated objects. Unlike prior work, ArtLLM autoregressively predicts a variable number of parts and joints, inferring their kinematic structure in a unified manner from the object's point cloud. This articulation-aware layout then conditions a 3D generative model to synthesize high-fidelity part geometries. Experiments on the PartNet-Mobility dataset show that ArtLLM significantly outperforms state-of-the-art methods in both part layout accuracy and joint prediction, while generalizing robustly to real-world objects. Finally, we demonstrate its utility in constructing digital twins, highlighting its potential for scalable robot learning.