ArtLLM:3D LLMによる関節付きアセットの生成
ArtLLM: Generating Articulated Assets via 3D LLM
March 1, 2026
著者: Penghao Wang, Siyuan Xie, Hongyu Yan, Xianghui Yang, Jingwei Huang, Chunchao Guo, Jiayuan Gu
cs.AI
要旨
ゲーム、ロボティクス、シミュレーションにおけるインタラクティブなデジタル環境の構築は、その機能が部品形状と運動構造から創発する関節型3Dオブジェクトに依存している。しかし、既存の手法には根本的な限界がある。最適化ベースの再構築手法は、遅いオブジェクトごとの関節フィッティングを必要とし、通常は単純な単関節オブジェクトのみを扱う。一方、検索ベースの手法は固定ライブラリから部品を組み立てるため、反復的な形状と汎化性能の低さにつながる。これらの課題に対処するため、我々は完全な3Dメッシュから直接高品質な関節アセットを生成する新しいフレームワーク「ArtLLM」を提案する。その中核には、既存の関節データセットと手続き的に生成されたオブジェクトから構築した大規模な関節データセットで学習された3Dマルチモーダル大規模言語モデルがある。従来の研究とは異なり、ArtLLMは可変数の部品と関節を自己回帰的に予測し、その運動構造をオブジェクトの点群から統一的に推論する。この関節を考慮したレイアウトは、その後、高精細な部品形状を合成する3D生成モデルの条件となる。PartNet-Mobilityデータセットでの実験により、ArtLLMが部品レイアウト精度と関節予測の両方において従来手法を大幅に上回り、実世界のオブジェクトに対しても頑健に汎化することを示す。最後に、デジタルツイン構築における有用性を実証し、スケーラブルなロボット学習への可能性を強調する。
English
Creating interactive digital environments for gaming, robotics, and simulation relies on articulated 3D objects whose functionality emerges from their part geometry and kinematic structure. However, existing approaches remain fundamentally limited: optimization-based reconstruction methods require slow, per-object joint fitting and typically handle only simple, single-joint objects, while retrieval-based methods assemble parts from a fixed library, leading to repetitive geometry and poor generalization. To address these challenges, we introduce ArtLLM, a novel framework for generating high-quality articulated assets directly from complete 3D meshes. At its core is a 3D multimodal large language model trained on a large-scale articulation dataset curated from both existing articulation datasets and procedurally generated objects. Unlike prior work, ArtLLM autoregressively predicts a variable number of parts and joints, inferring their kinematic structure in a unified manner from the object's point cloud. This articulation-aware layout then conditions a 3D generative model to synthesize high-fidelity part geometries. Experiments on the PartNet-Mobility dataset show that ArtLLM significantly outperforms state-of-the-art methods in both part layout accuracy and joint prediction, while generalizing robustly to real-world objects. Finally, we demonstrate its utility in constructing digital twins, highlighting its potential for scalable robot learning.