ArtLLM: Generazione di Risorse Articolate tramite LLM 3D

Abstract

La creazione di ambienti digitali interattivi per gaming, robotica e simulazione si basa su oggetti 3D articolati la cui funzionalità emerge dalla loro geometria delle parti e dalla struttura cinematica. Tuttavia, gli approcci esistenti rimangono fondamentalmente limitati: i metodi di ricostruzione basati sull'ottimizzazione richiedono una lenta calibrazione dei giunti per ogni oggetto e tipicamente gestiscono solo oggetti semplici con un singolo giunto, mentre i metodi basati sul retrieval assemblano parti da una libreria fissa, portando a geometrie ripetitive e una scarsa generalizzazione. Per affrontare queste sfide, introduciamo ArtLLM, un framework innovativo per generare asset articolati di alta qualità direttamente da mesh 3D complete. Il suo nucleo è un modello linguistico grande multimodale 3D addestrato su un dataset su larga scala di articolazioni curato sia da dataset di articolazioni esistenti che da oggetti generati proceduralmente. A differenza dei lavori precedenti, ArtLLM predice in modo autoregressivo un numero variabile di parti e giunti, inferendo la loro struttura cinematica in maniera unificata dalla nuvola di punti dell'oggetto. Questo layout consapevole dell'articolazione condiziona poi un modello generativo 3D per sintetizzare geometrie delle parti ad alta fedeltà. Esperimenti sul dataset PartNet-Mobility mostrano che ArtLLM supera significativamente i metodi all'avanguardia sia in accuratezza del layout delle parti che nella predizione dei giunti, generalizzando in modo robusto a oggetti del mondo reale. Infine, ne dimostriamo l'utilità nella costruzione di gemelli digitali, evidenziandone il potenziale per l'apprendimento robotico scalabile.

English

Creating interactive digital environments for gaming, robotics, and simulation relies on articulated 3D objects whose functionality emerges from their part geometry and kinematic structure. However, existing approaches remain fundamentally limited: optimization-based reconstruction methods require slow, per-object joint fitting and typically handle only simple, single-joint objects, while retrieval-based methods assemble parts from a fixed library, leading to repetitive geometry and poor generalization. To address these challenges, we introduce ArtLLM, a novel framework for generating high-quality articulated assets directly from complete 3D meshes. At its core is a 3D multimodal large language model trained on a large-scale articulation dataset curated from both existing articulation datasets and procedurally generated objects. Unlike prior work, ArtLLM autoregressively predicts a variable number of parts and joints, inferring their kinematic structure in a unified manner from the object's point cloud. This articulation-aware layout then conditions a 3D generative model to synthesize high-fidelity part geometries. Experiments on the PartNet-Mobility dataset show that ArtLLM significantly outperforms state-of-the-art methods in both part layout accuracy and joint prediction, while generalizing robustly to real-world objects. Finally, we demonstrate its utility in constructing digital twins, highlighting its potential for scalable robot learning.

ArtLLM: Generazione di Risorse Articolate tramite LLM 3D

ArtLLM: Generating Articulated Assets via 3D LLM

Abstract

Support