PartCrafter: 構造化された3Dメッシュ生成のための合成的潜在拡散トランスフォーマー
PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers
June 5, 2025
著者: Yuchen Lin, Chenguo Lin, Panwang Pan, Honglei Yan, Yiqiang Feng, Yadong Mu, Katerina Fragkiadaki
cs.AI
要旨
本論文では、PartCrafterを紹介する。これは、単一のRGB画像から、意味的に関連性があり幾何学的に異なる複数の3Dメッシュを同時に生成する、初めての構造化された3D生成モデルである。既存の手法が単一の3D形状を生成するか、あるいは二段階のパイプライン(すなわち、まず画像をセグメント化し、その後各セグメントを再構築する)を採用するのに対し、PartCrafterは、事前にセグメント化された入力に依存しない、統一された構成生成アーキテクチャを採用している。単一の画像を条件として、複数の3Dパーツを同時にノイズ除去し、個々のオブジェクトや複雑なマルチオブジェクトシーンのエンドツーエンドのパーツ認識生成を可能にする。PartCrafterは、全体のオブジェクトに対して訓練された事前訓練済みの3Dメッシュ拡散トランスフォーマー(DiT)を基盤としており、事前訓練済みの重み、エンコーダ、デコーダを継承し、以下の2つの主要な革新を導入している:(1) 各3Dパーツが分離された潜在トークンの集合によって表現される構成潜在空間、(2) 個々のパーツ内およびすべてのパーツ間で構造化された情報フローを可能にする階層的注意メカニズム。これにより、生成中にグローバルな一貫性を保ちつつ、パーツレベルの詳細を保持する。パーツレベルの教師データをサポートするため、大規模な3Dオブジェクトデータセットからパーツレベルのアノテーションを収集し、新しいデータセットを構築した。実験結果は、PartCrafterが分解可能な3Dメッシュの生成において、入力画像に直接見えないパーツを含め、既存のアプローチを凌駕することを示しており、3D理解と合成におけるパーツ認識生成事前分布の強みを実証している。コードと訓練データは公開予定である。
English
We introduce PartCrafter, the first structured 3D generative model that
jointly synthesizes multiple semantically meaningful and geometrically distinct
3D meshes from a single RGB image. Unlike existing methods that either produce
monolithic 3D shapes or follow two-stage pipelines, i.e., first segmenting an
image and then reconstructing each segment, PartCrafter adopts a unified,
compositional generation architecture that does not rely on pre-segmented
inputs. Conditioned on a single image, it simultaneously denoises multiple 3D
parts, enabling end-to-end part-aware generation of both individual objects and
complex multi-object scenes. PartCrafter builds upon a pretrained 3D mesh
diffusion transformer (DiT) trained on whole objects, inheriting the pretrained
weights, encoder, and decoder, and introduces two key innovations: (1) A
compositional latent space, where each 3D part is represented by a set of
disentangled latent tokens; (2) A hierarchical attention mechanism that enables
structured information flow both within individual parts and across all parts,
ensuring global coherence while preserving part-level detail during generation.
To support part-level supervision, we curate a new dataset by mining part-level
annotations from large-scale 3D object datasets. Experiments show that
PartCrafter outperforms existing approaches in generating decomposable 3D
meshes, including parts that are not directly visible in input images,
demonstrating the strength of part-aware generative priors for 3D understanding
and synthesis. Code and training data will be released.