ArtLLM: Erzeugung artikulierter Assets durch 3D-LLM

Zusammenfassung

Die Erstellung interaktiver digitaler Umgebungen für Gaming, Robotik und Simulation basiert auf artikulierten 3D-Objekten, deren Funktionalität aus ihrer Teilgeometrie und kinematischen Struktur hervorgeht. Bestehende Ansätze sind jedoch grundlegend limitiert: optimierungsbasierte Rekonstruktionsmethoden erfordern eine langsame, objektspezifische Gelenkanpassung und verarbeiten typischerweise nur einfache Objekte mit einem einzelnen Gelenk, während retrievbasierte Methoden Teile aus einer festen Bibliothek zusammensetzen, was zu repetitiver Geometrie und schlechter Generalisierung führt. Um diese Herausforderungen zu adressieren, stellen wir ArtLLM vor, ein neuartiges Framework zur Erzeugung hochwertiger artikulierter Assets direkt aus vollständigen 3D-Meshes. Sein Kernstück ist ein multimodales 3D-Großsprachmodell, das auf einem umfangreichen Artikulationsdatensatz trainiert wurde, der aus bestehenden Artikulationsdatensätzen und prozedural generierten Objekten kuratiert wurde. Im Gegensatz zu früheren Arbeiten sagt ArtLLM autoregressiv eine variable Anzahl von Teilen und Gelenken vorher und leitet deren kinematische Struktur einheitlich aus der Punktwolke des Objekts ab. Dieses artikulationsbewusste Layout konditioniert dann ein 3D-Generativmodell zur Synthese hochauflösender Teilgeometrien. Experimente mit dem PartNet-Mobility-Datensatz zeigen, dass ArtLLM state-of-the-art-Methoden sowohl in der Genauigkeit der Teileanordnung als auch in der Gelenkvorhersage signifikant übertrifft und dabei robust auf reale Objekte generalisiert. Abschließend demonstrieren wir seinen Nutzen für die Erstellung digitaler Zwillinge und unterstreichen damit sein Potenzial für skalierbares Robotik-Lernen.

English

Creating interactive digital environments for gaming, robotics, and simulation relies on articulated 3D objects whose functionality emerges from their part geometry and kinematic structure. However, existing approaches remain fundamentally limited: optimization-based reconstruction methods require slow, per-object joint fitting and typically handle only simple, single-joint objects, while retrieval-based methods assemble parts from a fixed library, leading to repetitive geometry and poor generalization. To address these challenges, we introduce ArtLLM, a novel framework for generating high-quality articulated assets directly from complete 3D meshes. At its core is a 3D multimodal large language model trained on a large-scale articulation dataset curated from both existing articulation datasets and procedurally generated objects. Unlike prior work, ArtLLM autoregressively predicts a variable number of parts and joints, inferring their kinematic structure in a unified manner from the object's point cloud. This articulation-aware layout then conditions a 3D generative model to synthesize high-fidelity part geometries. Experiments on the PartNet-Mobility dataset show that ArtLLM significantly outperforms state-of-the-art methods in both part layout accuracy and joint prediction, while generalizing robustly to real-world objects. Finally, we demonstrate its utility in constructing digital twins, highlighting its potential for scalable robot learning.

ArtLLM: Erzeugung artikulierter Assets durch 3D-LLM

ArtLLM: Generating Articulated Assets via 3D LLM

Zusammenfassung

Support