PartCrafter: Генерация структурированных 3D-сеток с использованием композиционных латентных диффузионных трансформеров
PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers
June 5, 2025
Авторы: Yuchen Lin, Chenguo Lin, Panwang Pan, Honglei Yan, Yiqiang Feng, Yadong Mu, Katerina Fragkiadaki
cs.AI
Аннотация
Мы представляем PartCrafter — первую структурированную 3D-генеративную модель, которая совместно синтезирует несколько семантически значимых и геометрически различных 3D-мешей из одного RGB-изображения. В отличие от существующих методов, которые либо создают монолитные 3D-формы, либо следуют двухэтапным подходам (сначала сегментируют изображение, а затем реконструируют каждый сегмент), PartCrafter использует унифицированную композиционную архитектуру генерации, не требующую предварительно сегментированных входных данных. Условившись на одном изображении, модель одновременно удаляет шум из нескольких 3D-частей, обеспечивая сквозную генерацию с учетом частей как для отдельных объектов, так и для сложных сцен с несколькими объектами. PartCrafter основана на предварительно обученном трансформере диффузии 3D-мешей (DiT), обученном на целых объектах, наследуя предварительно обученные веса, кодировщик и декодировщик, и вводит два ключевых новшества: (1) Композиционное латентное пространство, где каждая 3D-часть представлена набором разделенных латентных токенов; (2) Иерархический механизм внимания, который обеспечивает структурированный поток информации как внутри отдельных частей, так и между всеми частями, гарантируя глобальную согласованность при сохранении деталей на уровне частей в процессе генерации. Для поддержки обучения с учетом частей мы создали новый набор данных, извлекая аннотации на уровне частей из крупномасштабных наборов 3D-объектов. Эксперименты показывают, что PartCrafter превосходит существующие подходы в генерации разложимых 3D-мешей, включая части, которые не видны напрямую на входных изображениях, демонстрируя силу генеративных априорных знаний с учетом частей для понимания и синтеза 3D. Код и обучающие данные будут опубликованы.
English
We introduce PartCrafter, the first structured 3D generative model that
jointly synthesizes multiple semantically meaningful and geometrically distinct
3D meshes from a single RGB image. Unlike existing methods that either produce
monolithic 3D shapes or follow two-stage pipelines, i.e., first segmenting an
image and then reconstructing each segment, PartCrafter adopts a unified,
compositional generation architecture that does not rely on pre-segmented
inputs. Conditioned on a single image, it simultaneously denoises multiple 3D
parts, enabling end-to-end part-aware generation of both individual objects and
complex multi-object scenes. PartCrafter builds upon a pretrained 3D mesh
diffusion transformer (DiT) trained on whole objects, inheriting the pretrained
weights, encoder, and decoder, and introduces two key innovations: (1) A
compositional latent space, where each 3D part is represented by a set of
disentangled latent tokens; (2) A hierarchical attention mechanism that enables
structured information flow both within individual parts and across all parts,
ensuring global coherence while preserving part-level detail during generation.
To support part-level supervision, we curate a new dataset by mining part-level
annotations from large-scale 3D object datasets. Experiments show that
PartCrafter outperforms existing approaches in generating decomposable 3D
meshes, including parts that are not directly visible in input images,
demonstrating the strength of part-aware generative priors for 3D understanding
and synthesis. Code and training data will be released.