ChatPaper.aiChatPaper

PartCrafter: Geração Estruturada de Malhas 3D via Transformadores de Difusão Latente Composicional

PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers

June 5, 2025
Autores: Yuchen Lin, Chenguo Lin, Panwang Pan, Honglei Yan, Yiqiang Feng, Yadong Mu, Katerina Fragkiadaki
cs.AI

Resumo

Apresentamos o PartCrafter, o primeiro modelo generativo 3D estruturado que sintetiza conjuntamente múltiplas malhas 3D semanticamente significativas e geometricamente distintas a partir de uma única imagem RGB. Diferente dos métodos existentes que produzem formas 3D monolíticas ou seguem pipelines de duas etapas, ou seja, primeiro segmentam uma imagem e depois reconstroem cada segmento, o PartCrafter adota uma arquitetura de geração unificada e composicional que não depende de entradas pré-segmentadas. Condicionado a uma única imagem, ele desnrui simultaneamente múltiplas partes 3D, permitindo a geração consciente de partes de forma end-to-end tanto para objetos individuais quanto para cenas complexas com múltiplos objetos. O PartCrafter é construído sobre um transformer de difusão de malhas 3D (DiT) pré-treinado em objetos inteiros, herdando os pesos, codificador e decodificador pré-treinados, e introduz duas inovações principais: (1) Um espaço latente composicional, onde cada parte 3D é representada por um conjunto de tokens latentes desacoplados; (2) Um mecanismo de atenção hierárquica que permite o fluxo estruturado de informações tanto dentro de partes individuais quanto entre todas as partes, garantindo coerência global enquanto preserva detalhes em nível de parte durante a geração. Para suportar supervisão em nível de parte, criamos um novo conjunto de dados extraindo anotações em nível de parte de grandes conjuntos de dados de objetos 3D. Experimentos mostram que o PartCrafter supera abordagens existentes na geração de malhas 3D decomponíveis, incluindo partes que não estão diretamente visíveis nas imagens de entrada, demonstrando a força de priors generativos conscientes de partes para compreensão e síntese 3D. O código e os dados de treinamento serão disponibilizados.
English
We introduce PartCrafter, the first structured 3D generative model that jointly synthesizes multiple semantically meaningful and geometrically distinct 3D meshes from a single RGB image. Unlike existing methods that either produce monolithic 3D shapes or follow two-stage pipelines, i.e., first segmenting an image and then reconstructing each segment, PartCrafter adopts a unified, compositional generation architecture that does not rely on pre-segmented inputs. Conditioned on a single image, it simultaneously denoises multiple 3D parts, enabling end-to-end part-aware generation of both individual objects and complex multi-object scenes. PartCrafter builds upon a pretrained 3D mesh diffusion transformer (DiT) trained on whole objects, inheriting the pretrained weights, encoder, and decoder, and introduces two key innovations: (1) A compositional latent space, where each 3D part is represented by a set of disentangled latent tokens; (2) A hierarchical attention mechanism that enables structured information flow both within individual parts and across all parts, ensuring global coherence while preserving part-level detail during generation. To support part-level supervision, we curate a new dataset by mining part-level annotations from large-scale 3D object datasets. Experiments show that PartCrafter outperforms existing approaches in generating decomposable 3D meshes, including parts that are not directly visible in input images, demonstrating the strength of part-aware generative priors for 3D understanding and synthesis. Code and training data will be released.
PDF595June 9, 2025