ArtLLM: Het genereren van gearticuleerde assets via 3D LLM

Samenvatting

Het creëren van interactieve digitale omgevingen voor gaming, robotica en simulatie is afhankelijk van gearticuleerde 3D-objecten waarvan de functionaliteit voortkomt uit hun onderdeelgeometrie en kinematische structuur. Bestaande benaderingen kennen echter fundamentele beperkingen: op optimalisatie gebaseerde reconstructiemethoden vereisen trage, per-object gewrichtsaanpassing en behandelen doorgaans alleen eenvoudige objecten met één gewricht, terwijl op retrievable gebaseerde methoden onderdelen assembleren uit een vaste bibliotheek, wat leidt tot repetitieve geometrie en slechte generalisatie. Om deze uitdagingen aan te pakken, introduceren we ArtLLM, een nieuw raamwerk voor het genereren van hoogwaardige gearticuleerde assets rechtstreeks uit complete 3D-meshes. De kern ervan is een 3D multimodaal groot taalmodel, getraind op een grootschalige articulatiedataset samengesteld uit bestaande articulatie-datasets en procedureel gegenereerde objecten. In tegenstelling tot eerder werk, voorspelt ArtLLM autoregressief een variabel aantal onderdelen en gewrichten, waarbij het hun kinematische structuur op een uniforme manier afleidt uit de pointcloud van het object. Deze articulatiebewuste lay-out conditioneert vervolgens een 3D-generatief model om hoogwaardige onderdeelgeometrieën te synthetiseren. Experimenten op de PartNet-Mobility dataset tonen aan dat ArtLLM state-of-the-art methoden significant overtreft in zowel nauwkeurigheid van de onderdelenlay-out als gewrichtsvoorspelling, terwijl het robuust generaliseert naar objecten uit de echte wereld. Tot slot demonstreren we de bruikbaarheid ervan bij het construeren van digitale twins, wat het potentieel voor schaalbare robotleren benadrukt.

English

Creating interactive digital environments for gaming, robotics, and simulation relies on articulated 3D objects whose functionality emerges from their part geometry and kinematic structure. However, existing approaches remain fundamentally limited: optimization-based reconstruction methods require slow, per-object joint fitting and typically handle only simple, single-joint objects, while retrieval-based methods assemble parts from a fixed library, leading to repetitive geometry and poor generalization. To address these challenges, we introduce ArtLLM, a novel framework for generating high-quality articulated assets directly from complete 3D meshes. At its core is a 3D multimodal large language model trained on a large-scale articulation dataset curated from both existing articulation datasets and procedurally generated objects. Unlike prior work, ArtLLM autoregressively predicts a variable number of parts and joints, inferring their kinematic structure in a unified manner from the object's point cloud. This articulation-aware layout then conditions a 3D generative model to synthesize high-fidelity part geometries. Experiments on the PartNet-Mobility dataset show that ArtLLM significantly outperforms state-of-the-art methods in both part layout accuracy and joint prediction, while generalizing robustly to real-world objects. Finally, we demonstrate its utility in constructing digital twins, highlighting its potential for scalable robot learning.

ArtLLM: Het genereren van gearticuleerde assets via 3D LLM

ArtLLM: Generating Articulated Assets via 3D LLM

Samenvatting

Support