ArtLLM : Génération d'actifs articulés via un LLM 3D

Résumé

La création d'environnements numériques interactifs pour le jeu vidéo, la robotique et la simulation repose sur des objets 3D articulés dont la fonctionnalité émerge de leur géométrie de pièces et de leur structure cinématique. Cependant, les approches existantes restent fondamentalement limitées : les méthodes de reconstruction par optimisation nécessitent un ajustement lent et spécifique à chaque articulation, et ne traitent généralement que des objets simples à articulation unique, tandis que les méthodes par assemblage sélectionnent des pièces dans une bibliothèque fixe, conduisant à une géométrie répétitive et à une faible généralisation. Pour relever ces défis, nous présentons ArtLLM, un nouveau cadre de génération d'actifs articulés de haute qualité directement à partir de maillages 3D complets. Son cœur repose sur un grand modèle linguistique multimodal 3D entraîné sur un vaste jeu de données d'articulation, constitué à la fois de jeux de données existants et d'objets générés de manière procédurale. Contrairement aux travaux antérieurs, ArtLLM prédit de manière autorégressive un nombre variable de pièces et d'articulations, en inférant leur structure cinématique de manière unifiée à partir du nuage de points de l'objet. Cette disposition sensible à l'articulation conditionne ensuite un modèle génératif 3D pour synthétiser des géométries de pièces à haute fidélité. Les expériences sur le jeu de données PartNet-Mobility montrent qu'ArtLLM surpasse significativement les méthodes de l'état de l'art en précision de disposition des pièces et en prédiction des articulations, tout en généralisant robustement aux objets du monde réel. Enfin, nous démontrons son utilité dans la construction de jumeaux numériques, mettant en lumière son potentiel pour l'apprentissage robotique scalable.

English

Creating interactive digital environments for gaming, robotics, and simulation relies on articulated 3D objects whose functionality emerges from their part geometry and kinematic structure. However, existing approaches remain fundamentally limited: optimization-based reconstruction methods require slow, per-object joint fitting and typically handle only simple, single-joint objects, while retrieval-based methods assemble parts from a fixed library, leading to repetitive geometry and poor generalization. To address these challenges, we introduce ArtLLM, a novel framework for generating high-quality articulated assets directly from complete 3D meshes. At its core is a 3D multimodal large language model trained on a large-scale articulation dataset curated from both existing articulation datasets and procedurally generated objects. Unlike prior work, ArtLLM autoregressively predicts a variable number of parts and joints, inferring their kinematic structure in a unified manner from the object's point cloud. This articulation-aware layout then conditions a 3D generative model to synthesize high-fidelity part geometries. Experiments on the PartNet-Mobility dataset show that ArtLLM significantly outperforms state-of-the-art methods in both part layout accuracy and joint prediction, while generalizing robustly to real-world objects. Finally, we demonstrate its utility in constructing digital twins, highlighting its potential for scalable robot learning.

ArtLLM : Génération d'actifs articulés via un LLM 3D

ArtLLM: Generating Articulated Assets via 3D LLM

Résumé

Support