ArtLLM: Generación de Activos Articulados mediante Modelos de Lenguaje 3D

Resumen

La creación de entornos digitales interactivos para videojuegos, robótica y simulaciones depende de objetos 3D articulados cuya funcionalidad surge de su geometría de piezas y su estructura cinemática. Sin embargo, los enfoques existentes siguen siendo fundamentalmente limitados: los métodos de reconstrucción basados en optimización requieren un ajuste lento y específico por objeto, y normalmente solo manejan objetos simples con una única articulación, mientras que los métodos basados en recuperación ensamblan piezas a partir de una biblioteca fija, lo que genera geometrías repetitivas y una pobre generalización. Para abordar estos desafíos, presentamos ArtLLM, un marco novedoso para generar activos articulados de alta calidad directamente a partir de mallas 3D completas. En su núcleo se encuentra un modelo de lenguaje grande multimodal 3D entrenado en un conjunto de datos de articulación a gran escala, recopilado tanto de conjuntos de datos de articulación existentes como de objetos generados proceduralmente. A diferencia de trabajos anteriores, ArtLLM predice de forma autoregresiva un número variable de partes y articulaciones, infiriendo su estructura cinemática de manera unificada a partir de la nube de puntos del objeto. Este diseño consciente de la articulación condiciona luego a un modelo generativo 3D para sintetizar geometrías de piezas de alta fidelidad. Los experimentos en el conjunto de datos PartNet-Mobility muestran que ArtLLM supera significativamente a los métodos más avanzados tanto en precisión del diseño de partes como en la predicción de articulaciones, al mismo tiempo que generaliza de manera robusta a objetos del mundo real. Finalmente, demostramos su utilidad en la construcción de gemelos digitales, destacando su potencial para el aprendizaje robótico escalable.

English

Creating interactive digital environments for gaming, robotics, and simulation relies on articulated 3D objects whose functionality emerges from their part geometry and kinematic structure. However, existing approaches remain fundamentally limited: optimization-based reconstruction methods require slow, per-object joint fitting and typically handle only simple, single-joint objects, while retrieval-based methods assemble parts from a fixed library, leading to repetitive geometry and poor generalization. To address these challenges, we introduce ArtLLM, a novel framework for generating high-quality articulated assets directly from complete 3D meshes. At its core is a 3D multimodal large language model trained on a large-scale articulation dataset curated from both existing articulation datasets and procedurally generated objects. Unlike prior work, ArtLLM autoregressively predicts a variable number of parts and joints, inferring their kinematic structure in a unified manner from the object's point cloud. This articulation-aware layout then conditions a 3D generative model to synthesize high-fidelity part geometries. Experiments on the PartNet-Mobility dataset show that ArtLLM significantly outperforms state-of-the-art methods in both part layout accuracy and joint prediction, while generalizing robustly to real-world objects. Finally, we demonstrate its utility in constructing digital twins, highlighting its potential for scalable robot learning.

ArtLLM: Generación de Activos Articulados mediante Modelos de Lenguaje 3D

ArtLLM: Generating Articulated Assets via 3D LLM

Resumen

Support