ChatPaper.aiChatPaper

PartCrafter: Generación Estructurada de Mallas 3D mediante Transformadores de Difusión Latente Composicional

PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers

June 5, 2025
Autores: Yuchen Lin, Chenguo Lin, Panwang Pan, Honglei Yan, Yiqiang Feng, Yadong Mu, Katerina Fragkiadaki
cs.AI

Resumen

Presentamos PartCrafter, el primer modelo generativo 3D estructurado que sintetiza conjuntamente múltiples mallas 3D semánticamente significativas y geométricamente distintas a partir de una única imagen RGB. A diferencia de los métodos existentes que producen formas 3D monolíticas o siguen pipelines de dos etapas, es decir, primero segmentan una imagen y luego reconstruyen cada segmento, PartCrafter adopta una arquitectura generativa unificada y composicional que no depende de entradas pre-segmentadas. Condicionado por una sola imagen, desruida simultáneamente múltiples partes 3D, permitiendo la generación consciente de partes de extremo a extremo tanto para objetos individuales como para escenas complejas de múltiples objetos. PartCrafter se basa en un transformador de difusión de mallas 3D (DiT) preentrenado en objetos completos, heredando los pesos preentrenados, el codificador y el decodificador, e introduce dos innovaciones clave: (1) Un espacio latente composicional, donde cada parte 3D está representada por un conjunto de tokens latentes desenredados; (2) Un mecanismo de atención jerárquica que permite un flujo de información estructurado tanto dentro de las partes individuales como entre todas las partes, asegurando coherencia global mientras se preserva el detalle a nivel de parte durante la generación. Para apoyar la supervisión a nivel de parte, hemos creado un nuevo conjunto de datos extrayendo anotaciones a nivel de parte de grandes conjuntos de datos de objetos 3D. Los experimentos muestran que PartCrafter supera a los enfoques existentes en la generación de mallas 3D descomponibles, incluyendo partes que no son directamente visibles en las imágenes de entrada, demostrando la fortaleza de los priors generativos conscientes de partes para la comprensión y síntesis 3D. El código y los datos de entrenamiento serán publicados.
English
We introduce PartCrafter, the first structured 3D generative model that jointly synthesizes multiple semantically meaningful and geometrically distinct 3D meshes from a single RGB image. Unlike existing methods that either produce monolithic 3D shapes or follow two-stage pipelines, i.e., first segmenting an image and then reconstructing each segment, PartCrafter adopts a unified, compositional generation architecture that does not rely on pre-segmented inputs. Conditioned on a single image, it simultaneously denoises multiple 3D parts, enabling end-to-end part-aware generation of both individual objects and complex multi-object scenes. PartCrafter builds upon a pretrained 3D mesh diffusion transformer (DiT) trained on whole objects, inheriting the pretrained weights, encoder, and decoder, and introduces two key innovations: (1) A compositional latent space, where each 3D part is represented by a set of disentangled latent tokens; (2) A hierarchical attention mechanism that enables structured information flow both within individual parts and across all parts, ensuring global coherence while preserving part-level detail during generation. To support part-level supervision, we curate a new dataset by mining part-level annotations from large-scale 3D object datasets. Experiments show that PartCrafter outperforms existing approaches in generating decomposable 3D meshes, including parts that are not directly visible in input images, demonstrating the strength of part-aware generative priors for 3D understanding and synthesis. Code and training data will be released.
PDF344June 9, 2025