PartCrafter: 구성적 잠재 확산 트랜스포머를 통한 구조화된 3D 메쉬 생성
PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers
June 5, 2025
저자: Yuchen Lin, Chenguo Lin, Panwang Pan, Honglei Yan, Yiqiang Feng, Yadong Mu, Katerina Fragkiadaki
cs.AI
초록
단일 RGB 이미지로부터 의미적으로 의미 있고 기하학적으로 구별되는 다중 3D 메시를 동시에 합성하는 최초의 구조화된 3D 생성 모델인 PartCrafter를 소개한다. 기존의 방법들이 단일체 3D 형상을 생성하거나, 즉 이미지를 먼저 분할한 후 각 세그먼트를 재구성하는 두 단계 파이프라인을 따르는 것과 달리, PartCrafter는 사전 분할된 입력에 의존하지 않는 통합적이고 구성적인 생성 아키텍처를 채택한다. 단일 이미지를 조건으로 하여, 다중 3D 부품을 동시에 노이즈 제거함으로써 개별 객체와 복잡한 다중 객체 장면 모두에 대한 부품 인식 생성이 종단 간으로 가능하다. PartCrafter는 전체 객체에 대해 사전 학습된 3D 메시 확산 트랜스포머(DiT)를 기반으로 하여, 사전 학습된 가중치, 인코더 및 디코더를 상속받으며, 두 가지 주요 혁신을 도입한다: (1) 각 3D 부품이 분리된 잠재 토큰 집합으로 표현되는 구성적 잠재 공간; (2) 개별 부품 내부와 모든 부품 간에 구조화된 정보 흐름을 가능하게 하는 계층적 주의 메커니즘으로, 생성 과정에서 전역적 일관성을 보장하면서 부품 수준의 세부 사항을 보존한다. 부품 수준의 감독을 지원하기 위해, 대규모 3D 객체 데이터셋에서 부품 수준의 주석을 추출하여 새로운 데이터셋을 구축하였다. 실험 결과, PartCrafter는 입력 이미지에서 직접 보이지 않는 부품을 포함하여 분해 가능한 3D 메시 생성에서 기존 접근법을 능가하며, 3D 이해와 합성을 위한 부품 인식 생성 사전 지식의 강점을 입증한다. 코드와 학습 데이터는 공개될 예정이다.
English
We introduce PartCrafter, the first structured 3D generative model that
jointly synthesizes multiple semantically meaningful and geometrically distinct
3D meshes from a single RGB image. Unlike existing methods that either produce
monolithic 3D shapes or follow two-stage pipelines, i.e., first segmenting an
image and then reconstructing each segment, PartCrafter adopts a unified,
compositional generation architecture that does not rely on pre-segmented
inputs. Conditioned on a single image, it simultaneously denoises multiple 3D
parts, enabling end-to-end part-aware generation of both individual objects and
complex multi-object scenes. PartCrafter builds upon a pretrained 3D mesh
diffusion transformer (DiT) trained on whole objects, inheriting the pretrained
weights, encoder, and decoder, and introduces two key innovations: (1) A
compositional latent space, where each 3D part is represented by a set of
disentangled latent tokens; (2) A hierarchical attention mechanism that enables
structured information flow both within individual parts and across all parts,
ensuring global coherence while preserving part-level detail during generation.
To support part-level supervision, we curate a new dataset by mining part-level
annotations from large-scale 3D object datasets. Experiments show that
PartCrafter outperforms existing approaches in generating decomposable 3D
meshes, including parts that are not directly visible in input images,
demonstrating the strength of part-aware generative priors for 3D understanding
and synthesis. Code and training data will be released.